대화를 넘어선 마음 이론(Theory of Mind)과 설득: 계획 및 행동을 통해 신념 상태를 유도하는 LLM의 능력 평가
요약
LLM이 대화 없이 행동만으로 타인의 신념을 유도하는 '비대화형 계획 마음 이론(NCP-ToM)' 능력을 평가한 연구입니다. GPT-5 등 프런티어 모델을 대상으로 실험한 결과, 일부 모델이 인간을 능가하는 사회적 추론 능력을 보였으나 안전성 및 정렬 측면의 추가 연구가 필요함을 시사합니다.
핵심 포인트
- 수동적 질의응답을 넘어 행동 기반의 마음 이론(ToM) 평가 프레임워크 제안
- NCP-ToM을 통해 에이전트의 사회적 추론 및 신념 유도 능력 측정
- GPT-5가 인간보다 높은 성공률을 보이며 뛰어난 에이전트 능력을 입증
- 모델들이 참인 신념 유도에 더 강점을 보이며 정렬(Alignment) 가능성 확인
- 자율적 에이전트의 조작 및 오정보 위험에 대한 안전성 평가 중요성 강조
대규모 언어 모델 (LLMs)을 위한 마음 이론 (Theory of Mind, ToM) 벤치마크는 일반적으로 수동적인 질의응답 형식에 의존하지만, 점점 더 에이전트적 (agentic)이고 자율적인 형태로 LLM이 배치됨에 따라 새로운 평가 방식이 요구됩니다. 본 논문에서는 대화적 설득을 사용하는 대신 행동을 취함으로써 다른 에이전트에게 특정 신념 상태 (belief states)를 유도하는 에이전트의 능력을 평가하며, 우리는 이를 비대화형 계획 ToM (Non-Conversational Planning ToM, NCP-ToM)이라고 부릅니다. NCP-ToM은 사용자-어시스턴트 상호작용 및 교육적 맥락을 포함한 많은 에이전트 활용 사례에서 필수적일 가능성이 높지만, 조작이나 오정보의 위험을 초래할 수도 있습니다. 새로운 프레임워크인 NCP-ExploreToM을 사용하여, 우리는 모델에게 일련의 신념 상태 목표를 제공하고 목표 달성을 위해 물체를 이동시키거나 캐릭터를 방으로 유도하도록 요구함으로써 기존의 작업 구조를 뒤집었습니다. 우리는 GPT-5, Gemini 2.5 Pro, Claude 4 시리즈를 포함한 6개의 프런티어 모델과 인간 참가자 집단을 대상으로 600개의 작업 사례를 평가했습니다. GPT-5는 에이전트 설정에서 약 80%의 작업에 성공했으며, 우리의 작업에서 인간 참가자보다 뛰어난 성능을 보인 유일한 모델이었으나, 여러 맥락에 걸쳐 인간만큼 견고하지는 않았습니다. 또한 우리는 모든 모델이 인간과 마찬가지로 거짓 신념 상태보다 참 신념 상태를 유도하는 작업에서 더 높은 성능을 보인다는 점을 발견했으며, 이는 정렬 (alignment) 노력에 있어 긍정적인 신호입니다. 이러한 발견은 비대화형 작업 완수를 위한 LLM의 신흥 사회적 추론 능력을 강조하며, 자율적인 사회적 에이전트의 안전성과 정렬을 이해하기 위한 에이전트적 평가의 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기