본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 15. 12:27

제한된 상호작용을 통한 Text-Tabular 모델링 기반 AI Agent의 의사결정 예측

요약

본 연구는 AI 에이전트가 제한된 상호작용 횟수만으로 상대방의 다음 의사결정을 예측하는 방법을 탐구합니다. 이를 위해 협상 및 흥정 게임을 '타겟 적응형 텍스트-테이블 예측' 문제로 정식화했습니다. 제안된 모델은 테이블 파운데이션 모델에 LLM-as-Observer라는 새로운 특징 추출 방식을 결합하여, 소형 동결 LLM의 은닉 상태를 의사결정 지향적 특징으로 활용합니다. 실험 결과, 이 Observer 특징이 기존 방식보다 우수한 성능을 보여 상대방의 숨겨진 의사결정 신호를 효과적으로 포착할 수 있음을 입증했습니다.

핵심 포인트

  • AI 에이전트 간의 상호작용에서 상대방의 다음 의사결정을 예측하는 것이 핵심 과제입니다.
  • 본 연구는 이 문제를 '타겟 적응형 텍스트-테이블 예측'이라는 구조화된 형태로 정식화하여 접근했습니다.
  • 모델은 테이블 파운데이션 모델을 기반으로 하며, LLM-as-Observer를 도입하여 은닉 상태를 의사결정 특징으로 활용합니다.
  • LLM-as-Observer는 직접적인 프롬프팅 방식보다 우수한 성능을 보여 상대방의 숨겨진 의도(decision-relevant signals)를 포착하는 데 효과적입니다.

AI 에이전트(AI agents)는 낯선 상대와 자연어(natural language)로 협상하거나 거래를 수행합니다. 예를 들어, 알 수 없는 판매자를 마주한 구매 봇(buyer bot)이나 공급업체와 협상하는 조달 어시스턴트(procurement assistant)가 이에 해당합니다. 이러한 상호작용에서 상대방의 LLM(Large Language Model), 프롬프트(prompts), 제어 로직(control logic), 그리고 규칙 기반 폴백(rule-based fallbacks)은 숨겨져 있으며, 각각의 의사결정은 금전적 결과를 초래할 수 있습니다. 본 연구에서는 에이전트가 몇 번의 상호작용만으로 낯선 상대방의 다음 의사결정을 예측할 수 있는지 질문합니다. 실제 환경의 로깅 혼란(logging confounds)을 피하기 위해, 우리는 통제된 흥정(bargaining) 및 협상(negotiation) 게임에서 이 문제를 연구하며, 이를 타겟 적응형 텍스트-테이블 예측(target-adaptive text-tabular prediction)으로 정식화합니다. 즉, 각 의사결정 지점은 구조화된 게임 상태(game state), 제안 이력(offer history), 그리고 대화(dialogue)를 결합한 테이블 행(table row)이며, 모델링 대상인 동일한 타겟 에이전트의 이전 $K$개 게임이 레이블이 지정된 적응 예시(adaptation examples)로서 프롬프트에 제공됩니다.

우리의 모델은 게임 상태 특징(game-state features)과 LLM 기반 텍스트 표현(text representations)을 사용하여 행을 나타내는 테이블 파운데이션 모델(tabular foundation model)을 기반으로 구축되었으며, 추가적인 표현 방식으로서 LLM-as-Observer를 도입했습니다. 소형의 동결된(frozen) LLM이 의사결정 시점의 상태와 대화를 읽고, 그 답변은 버려지되 그 은닉 상태(hidden state)가 의사결정 지향적 특징(decision-oriented feature)이 됩니다. 이를 통해 LLM은 직접적인 퓨샷 예측기(few-shot predictor)가 아닌 인코더(encoder) 역할을 수행합니다. 13개의 프론티어 LLM(frontier-LLM) 에이전트로 학습하고 91개의 홀드아웃(held-out) 스캐폴드 에이전트(scaffolded agents)로 테스트한 결과, 전체 모델은 직접적인 LLM-as-Predictor 프롬프팅 및 게임+텍스트 특징 베이스라인(baselines)보다 우수한 성능을 보였습니다. 이 테이블 모델 내에서 Observer 특징은 다른 특징 체계 이상의 기여를 합니다. $K=16$일 때, 이 특징들은 두 작업 모두에서 응답 예측 AUC를 약 4포인트 향상시키고 흥정 제안 예측 오차를 14% 감소시킵니다. 이러한 결과는 상대방 예측을 타겟 적응형 텍스트-테이블 작업으로 정식화하는 것이 효과적인 적응을 가능하게 하며, 숨겨진 LLM 표현이 직접적인 프롬프팅으로는 드러나지 않는 의사결정 관련 신호(decision-relevant signals)를 노출한다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0