OdysSim: 인간 행동 시뮬레이션을 위한 파운데이션 모델 구축
요약
인간 행동 시뮬레이션을 위한 파운데이션 모델 OdysSim과 분류 체계 SOUL을 제안합니다. 62개 데이터셋과 23개 벤치마크를 통합하여 기존 LLM의 동질적 말투 문제를 해결하고, 인간과 유사한 행동을 구현하는 훈련 레시피를 개발했습니다.
핵심 포인트
- 인간 행동 시뮬레이션을 위한 SOUL 분류 체계 제안
- 10B 토큰 규모의 OdysSim 코퍼스 구축
- 8B OSim 모델이 다수 벤치마크에서 프런티어 모델 능가
- 실제 사용자와 유사한 수준의 반응 정렬(93.2%) 달성
- LLM-as-judge 강화학습의 보상 해킹 문제 지적
대규모 언어 모델(Large language models)은 상호작용적 평가 및 사회적 시뮬레이션을 위한 인간 시뮬레이터로서 점점 더 많이 배치되고 있습니다. 그러나 유용성(helpfulness) 중심의 사후 학습(post-training)은 모델을 동질적이고 지나치게 동조적인 어시스턴트 말투로 유도하며, 이는 행동적 Sim2Real 격차를 발생시킵니다. 우리는 행동 파운데이션 모델(behavioral foundation models), 즉 대규모로 인간의 행동을 시뮬레이션하도록 훈련된 모델에 대한 가장 큰 규모의 공개적이고 체계적인 조사인 OdysSim을 제시합니다. 우리는 62개의 데이터셋과 23개의 벤치마크 태스크를 하나의 프레임워크 아래 통합하는 5가지 능력 축(CONV, SS, COG, ROLE, EVAL)의 분류 체계인 SOUL을 제안합니다. 구체적으로, 우리는 OdysSim 코퍼스(21.4M 상호작용, 10B 토큰, 역생성된 사회적 맥락(back-generated social contexts)으로 보완됨)를 큐레이션하고, SOUL-Index 벤치마크를 구축하며, 중간 학습(midtraining), 태스크 특화 강화학습(task-specific RL), 그리고 전문가 증류(expert distillation)를 결합한 엔드투엔드(end-to-end) 훈련 레시피를 개발합니다. 그 결과물인 오픈 8B OSim 모델은 23개 태스크 중 8개에서 1위 또는 공동 1위를 차지하며, 이 수치상으로는 그 어떤 개별 프런티어 모델(frontier model)보다 뛰어난 성능을 보였으며, 특히 대화 및 사회적 태스크에서 가장 강력한 성능 향상을 보였습니다. 또한 이 모델의 출력물은 길이, 형식, 단어 선택 면에서 더욱 인간과 유사하며, $\tau$-bench의 분포 외(out-of-distribution) 사용자 시뮬레이션에 제로샷(zero-shot)으로 전이되었을 때 반응 정렬(reaction alignment) 측면에서 실제 사용자와 거의 유사한 수준(93.2 대 93.5)을 기록했습니다. 우리는 더 나아가 LLM-as-judge 강화학습(RL)이 보상 해킹(reward-hacking) 패턴을 유발하며, 우리의 탐지기(detectors)가 사후 학습 과정에서 이를 완화할 수 있음을 보여줍니다. 종합적으로, 우리의 연구 결과는 행동 파운데이션 모델이 LLM 훈련 패러다임에 대한 재고를 필요로 함을 시사합니다. 우리는 향후 연구를 지원하기 위해 모든 결과물을 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기