대화 시나리오 예측을 위한 Theory of Mind 벤치마크: DialToM
요약
LLMs의 Theory of Mind (ToM) 능력이 진정한 추론 능력인지, 아니면 단순한 상관관계에 의한 것인지 검증하기 위해 'DialToM' 벤치마크를 제안합니다. DialToM은 자연스러운 인간 대화를 기반으로 하며, 단순히 정신 상태 예측(Literal ToM)뿐만 아니라, 이 상태 정보를 활용하여 사회적 대화의 미래 경로를 예측하는 기능적 유용성(Functional ToM)까지 평가합니다. 실험 결과, LLMs가 정신 상태 식별에는 강점을 보이지만, 이를 바탕으로 실제 대화 궤적을 성공적으로 예측하는 능력은 매우 부족한
핵심 포인트
- DialToM은 자연어 인간 대화를 활용하여 Theory of Mind (ToM) 능력을 검증하는 멀티플-초이스 기반의 새로운 벤치마크입니다.
- 평가는 단순 정신 상태 예측(Literal ToM)을 넘어, 상태 정보를 이용한 미래 대화 경로 추론 능력인 기능적 ToM (Functional ToM)에 초점을 맞춥니다.
- 대부분의 LLMs는 정신 상태를 식별하는 데는 능숙하지만, 이를 활용하여 사회적 궤적을 예측하는 '추론 비대칭성(reasoning asymmetry)'이 관찰되었습니다.
- LLM과 인간이 생성한 추론 사이에는 의미론적 유사성이 약하다는 점이 발견되어, 모델의 실제 이해도에 대한 의문을 제기합니다.
최근 대규모 언어 모델(LLMs)들이 Theory of Mind (ToM) 능력을 갖추고 있다는 연구 결과가 보고되고 있습니다. 하지만 이러한 능력이 견고한 추론 능력에서 비롯된 것인지, 아니면 단순히 데이터 내의 우연한 상관관계에 기반한 것인지는 여전히 불분명합니다.
이에 본 논문에서는 'DialToM'이라는 새로운 벤치마크를 소개합니다. DialToM은 실제 인간 대화 데이터를 활용하여 개발되었으며, 멀티플-초이스(multiple-choice) 형식으로 구성되어 있습니다. 이 벤치마크는 LLMs의 ToM 능력을 다각도로 평가하는 것을 목표로 합니다.
핵심적으로, DialToM은 단순히 모델이 특정 인물의 '정신 상태'를 얼마나 정확하게 예측하는지(Literal ToM: Literal Theory of Mind)만을 측정하지 않습니다. 나아가, 이 정신 상태 정보가 실제 대화의 미래 전개에 어떤 '기능적 유용성(Functional Utility)'을 가지는지까지 검증합니다. 이를 위해 'Prospective Diagnostic Forecasting'이라는 방식을 도입하여, 모델이 오직 주어진 정신 상태 프로필만으로도 일관된 대화 궤적(state-consistent dialogue trajectories)을 식별할 수 있는지 심층적으로 탐구합니다.
연구 결과는 흥미로운 '추론 비대칭성(reasoning asymmetry)'을 보여줍니다. 즉, LLMs가 등장인물의 정신 상태를 파악하는 능력은 뛰어나지만, 이 이해도를 바탕으로 실제 사회적 대화의 미래 경로를 예측하고 추론해내는 능력은 대부분의 모델에서 부족하다는 것입니다 (Gemini 3 Pro 제외). 또한, 연구진은 LLM이 생성한 추론과 인간이 실제로 수행하는 추론 간에는 의미론적인 유사성이 매우 약함을 발견했습니다.
결론적으로, DialToM은 LLMs가 단순히 지식을 나열하거나 패턴을 인식하는 수준을 넘어, 복잡하고 맥락 의존적인 사회적 상호작용의 깊은 이해(deep understanding of social interaction)를 갖추었는지 검증할 수 있는 강력한 도구를 제공합니다. 이 데이터셋과 평가 코드는 재현성을 위해 공개되었습니다.
[주요 용어 정리]
- Theory of Mind (ToM): 타인의 감정, 믿음, 의도 등 정신적 상태를 추론하는 능력.
- Literal ToM: 주어진 상황에서 등장인물의 정신 상태(mental state)를 정확히 예측하는 능력.
- Functional ToM: 예측된 정신 상태가 실제 대화의 미래 전개에 어떤 영향을 미치는지(functional utility)를 활용하여 궤적을 예측하는 능력.
- Prospective Diagnostic Forecasting: 주어진 정보만으로 미래의 상황이나 결과를 진단적으로 예측하는 과정.
[참고] DialToM 데이터셋 및 평가 코드는 https://github.com/Stealth-py/DialToM에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기