보고, 추론하고, 개입하라: 목표 지향적 사회적 지능을 위한 선제적 월드 모델링 (Proactive World Modeling)
요약
고객의 행동을 보고 의도를 추론하여 선제적으로 개입하는 SII 프레임워크와 PIWM 모델을 제안합니다. AIDA 및 BDI 모델을 활용해 고객 상태를 예측하며, 새로운 벤치마크인 GuidanceSalesBench를 통해 성능을 검증했습니다.
핵심 포인트
- SII(See-Infer-Intervene) 프레임워크 제안
- PIWM 모델을 통한 선제적 고객 의도 예측
- GuidanceSalesBench 벤치마크 구축 및 공개
- 비디오-상태 접지(video-to-state grounding)의 중요성 확인
멀티모달 (Multimodal) 소매 에이전트 (retail agents)는 고객이 무엇을 하고 있는지 인식할 뿐만 아니라, 명시적인 요청이 있기 전에 도움을 줄지 여부와 그 방법을 결정해야 합니다. 우리는 장치가 상호작용 전의 행동을 보고 (see), 잠재적인 고객 의도를 추론하며 (infer), 적절한 서비스 개입을 선택하거나 대기할지를 결정함으로써 행동하는 (intervene) See--Infer--Intervene (SII) 프레임워크를 통해 이 설정을 연구합니다. 우리는 SII를 선제적 의도 월드 모델 (Proactive Intent World Model, PIWM)로 구체화하였으며, 이는 고객 상태를 AIDA (Attention, Interest, Desire, Action) 구매 단계와 BDI (belief, desire, intention) 심리적 장 (psychological fields)으로 표현하고, 행동 조건부 의도 전이 (action-conditioned intent transitions)를 예측하며, 인사 (Greet), 유도 (Elicit), 정보 제공 (Inform), 추천 (Recommend), 대기 (Hold)의 5가지 응답 클래스 중에서 선택합니다. 나아가 우리는 상태 명세 (state manifests), 상호작용 전 비디오, 후보 응답, 행동 조건부 결과, 최적 행동 라벨을 포함하는 스마트 소매 벤치마크인 GuidanceSalesBench를 구축합니다. 행동 선택을 격리하기 위해 정답(ground-truth) 고객 상태를 조건으로 설정했을 때, PIWM은 30개의 홀드아웃 (held-out) 타겟 비디오에서 0.641의 macro F1을 달성하여, 제로샷 (zero-shot) Qwen2.5-VL-7B 베이스라인 및 균형 잡힌 행동 감독 (balanced action supervision)이 없는 학습 변형 모델들을 능가했습니다. 엔드투엔드 (end-to-end) 비디오 전용 선택은 0.295로 떨어져 5개 클래스의 균형 잡힌 랜덤 베이스라인인 0.414보다 낮게 나타났으며, 이는 비디오-상태 접지 (video-to-state grounding)가 배포 시의 주요 병목 현상임을 식별해 줍니다. (스크립트된 고객 행동을 수행하는 유료 참가자로 녹화된) 예비 단계의 실제 매장 파일럿 테스트에서는 20개의 전체 주석 처리된 비디오에서 0.579의 행동 macro F1에 도달했으며, 인덱스 수준의 라벨이 포함된 10개의 추가 접근 가능한 비디오가 공개되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기