arXiv논문2026. 06. 23. 11:58

평생 사회적 지능을 위한 사회적 세계 모델 (Social World Model)

요약

언어 에이전트의 지속적인 사회적 지능 습득을 위한 '사회적 세계 모델(Social World Model)' 프레임워크를 제안합니다. 상호작용을 5가지 차원으로 분해하여 폐쇄 루프 학습을 구현하며, Qwen2.5-7B 모델을 통해 평생 학습 성능을 입증했습니다.

핵심 포인트

사회적 상호작용을 5가지 차원으로 구조화한 폐쇄 루프 학습 프레임워크 제안
데이터 합성 메커니즘과 평생 학습 벤치마크(ASCENT-Bench) 제공
Qwen2.5-7B 모델이 Gemini 3 Flash와 대등하거나 능가하는 사회적 능력 달성
학습 과정에서의 성능 저하 없는 'Zero Forgetting' 구현 성공

사회적 지능 (Social intelligence)은 언어 에이전트 (language agents)의 핵심 역량이지만, 현재의 연구는 이러한 기술이 어떻게 지속적으로 형성되고 축적되는지보다는 주로 정적인 능력 평가에 집중되어 있습니다. 이러한 격차는 지속 가능한 학습 패러다임으로의 전환을 요구합니다. 현재 두 가지 방법론적 고충이 존재합니다. 첫째, 사회적 상호작용 궤적 (social interaction trajectories)이 반복 가능한 학습 신호를 형성할 수 있는 통일된 구조적 표현 (structured representations)이 부족하며, 둘째, 능력의 향상과 유지가 일반적으로 분리되어 연구되어 지속적인 진화를 평가하는 데 방해가 된다는 점입니다. 이 격차를 해소하기 위해, 우리는 사회적 세계 모델 (Social World Model)을 제안합니다. 우리는 사회적 상호작용을 다섯 가지 차원(장면 설정 (scene setting), 관찰 (observation), 정신 상태 (mental state), 행동 (action), 대화 (dialogue))으로 분해하여 폐쇄 루프 학습 프레임워크 (closed-loop learning framework)를 구축합니다. 이 설정에서 에이전트는 상호작용 경험을 수집하고, 이를 모델 업데이트를 위한 선호 신호 (preference signals)로 변환하며, 업데이트된 정책 (policy)을 지속적인 학습을 위해 재배치합니다. 또한, 우리는 재사용 가능한 데이터 합성 메커니즘과 평생 학습 (lifelong learning) 벤치마크를 제공하여, 사회적 능력을 "평가 대상"에서 "지속 가능한 훈련 대상"으로 전환합니다. ASCENT-Bench에서 우리의 프레임워크를 검증한 결과, 상호작용 방식으로 훈련된 Qwen2.5-7B 모델은 다섯 가지 핵심 지표 모두에서 베이스라인 (baseline)을 능가했습니다. 특히, 완료율 (completion rate) 측면에서는 폐쇄형 모델인 Gemini 3 Flash와 대등하며, 통과율 (pass rate)에서는 이를 능가하고, 세 가지 난이도 수준 전체에서 망각 없는 (zero forgetting) 성능을 달성했습니다. 단순히 정적인 비교나 능력 저하를 보고하는 이전 연구들과 달리, 이 엔드 투 엔드 (end-to-end) 접근 방식은 훈련 가능하고, 검증 가능하며, 유지 가능한 경로를 제공하여, 작은 오픈 소스 모델도 경쟁력 있는 사회적 협업 능력을 지속적으로 습득할 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

평생 사회적 지능을 위한 사회적 세계 모델 (Social World Model)

요약

핵심 포인트

댓글