제한된 상호작용을 통한 Text-Tabular 모델링 기반 AI Agent의 의사결정 예측

AI 에이전트(AI agents)는 낯선 상대와 자연어(natural language)로 협상하거나 거래를 수행합니다. 예를 들어, 알 수 없는 판매자를 마주한 구매 봇(buyer bot)이나 공급업체와 협상하는 조달 어시스턴트(procurement assistant)가 이에 해당합니다. 이러한 상호작용에서 상대방의 LLM(Large Language Model), 프롬프트(prompts), 제어 로직(control logic), 그리고 규칙 기반 폴백(rule-based fallbacks)은 숨겨져 있으며, 각각의 의사결정은 금전적 결과를 초래할 수 있습니다. 본 연구에서는 에이전트가 몇 번의 상호작용만으로 낯선 상대방의 다음 의사결정을 예측할 수 있는지 질문합니다. 실제 환경의 로깅 혼란(logging confounds)을 피하기 위해, 우리는 통제된 흥정(bargaining) 및 협상(negotiation) 게임에서 이 문제를 연구하며, 이를 타겟 적응형 텍스트-테이블 예측(target-adaptive text-tabular prediction)으로 정식화합니다. 즉, 각 의사결정 지점은 구조화된 게임 상태(game state), 제안 이력(offer history), 그리고 대화(dialogue)를 결합한 테이블 행(table row)이며, 모델링 대상인 동일한 타겟 에이전트의 이전 $K$개 게임이 레이블이 지정된 적응 예시(adaptation examples)로서 프롬프트에 제공됩니다.

우리의 모델은 게임 상태 특징(game-state features)과 LLM 기반 텍스트 표현(text representations)을 사용하여 행을 나타내는 테이블 파운데이션 모델(tabular foundation model)을 기반으로 구축되었으며, 추가적인 표현 방식으로서 LLM-as-Observer를 도입했습니다. 소형의 동결된(frozen) LLM이 의사결정 시점의 상태와 대화를 읽고, 그 답변은 버려지되 그 은닉 상태(hidden state)가 의사결정 지향적 특징(decision-oriented feature)이 됩니다. 이를 통해 LLM은 직접적인 퓨샷 예측기(few-shot predictor)가 아닌 인코더(encoder) 역할을 수행합니다. 13개의 프론티어 LLM(frontier-LLM) 에이전트로 학습하고 91개의 홀드아웃(held-out) 스캐폴드 에이전트(scaffolded agents)로 테스트한 결과, 전체 모델은 직접적인 LLM-as-Predictor 프롬프팅 및 게임+텍스트 특징 베이스라인(baselines)보다 우수한 성능을 보였습니다. 이 테이블 모델 내에서 Observer 특징은 다른 특징 체계 이상의 기여를 합니다. $K=16$일 때, 이 특징들은 두 작업 모두에서 응답 예측 AUC를 약 4포인트 향상시키고 흥정 제안 예측 오차를 14% 감소시킵니다. 이러한 결과는 상대방 예측을 타겟 적응형 텍스트-테이블 작업으로 정식화하는 것이 효과적인 적응을 가능하게 하며, 숨겨진 LLM 표현이 직접적인 프롬프팅으로는 드러나지 않는 의사결정 관련 신호(decision-relevant signals)를 노출한다는 것을 보여줍니다.

Insights

제한된 상호작용을 통한 Text-Tabular 모델링 기반 AI Agent의 의사결정 예측

요약

핵심 포인트

댓글

AI 엔지니어를 위한 10가지 에이전트 평가(Evals) 방법

Truss: 새로운 단일 사용자 로컬 하네스 (local harness)

Nike, 내년 1월부터 중국 내 온라인 도매 판매 제한 예정 – 보고서

오늘 Supermicro 주가가 급등하는 이유

AI 엔지니어를 위한 10가지 에이전트 평가(Evals) 방법

Truss: 새로운 단일 사용자 로컬 하네스 (local harness)

Nike, 내년 1월부터 중국 내 온라인 도매 판매 제한 예정 – 보고서

오늘 Supermicro 주가가 급등하는 이유