대화를 넘어선 마음 이론(Theory of Mind)과 설득: 계획 및 행동을 통해 신념 상태를 유도하는 LLM의 능력 평가

대규모 언어 모델 (LLMs)을 위한 마음 이론 (Theory of Mind, ToM) 벤치마크는 일반적으로 수동적인 질의응답 형식에 의존하지만, 점점 더 에이전트적 (agentic)이고 자율적인 형태로 LLM이 배치됨에 따라 새로운 평가 방식이 요구됩니다. 본 논문에서는 대화적 설득을 사용하는 대신 행동을 취함으로써 다른 에이전트에게 특정 신념 상태 (belief states)를 유도하는 에이전트의 능력을 평가하며, 우리는 이를 비대화형 계획 ToM (Non-Conversational Planning ToM, NCP-ToM)이라고 부릅니다. NCP-ToM은 사용자-어시스턴트 상호작용 및 교육적 맥락을 포함한 많은 에이전트 활용 사례에서 필수적일 가능성이 높지만, 조작이나 오정보의 위험을 초래할 수도 있습니다. 새로운 프레임워크인 NCP-ExploreToM을 사용하여, 우리는 모델에게 일련의 신념 상태 목표를 제공하고 목표 달성을 위해 물체를 이동시키거나 캐릭터를 방으로 유도하도록 요구함으로써 기존의 작업 구조를 뒤집었습니다. 우리는 GPT-5, Gemini 2.5 Pro, Claude 4 시리즈를 포함한 6개의 프런티어 모델과 인간 참가자 집단을 대상으로 600개의 작업 사례를 평가했습니다. GPT-5는 에이전트 설정에서 약 80%의 작업에 성공했으며, 우리의 작업에서 인간 참가자보다 뛰어난 성능을 보인 유일한 모델이었으나, 여러 맥락에 걸쳐 인간만큼 견고하지는 않았습니다. 또한 우리는 모든 모델이 인간과 마찬가지로 거짓 신념 상태보다 참 신념 상태를 유도하는 작업에서 더 높은 성능을 보인다는 점을 발견했으며, 이는 정렬 (alignment) 노력에 있어 긍정적인 신호입니다. 이러한 발견은 비대화형 작업 완수를 위한 LLM의 신흥 사회적 추론 능력을 강조하며, 자율적인 사회적 에이전트의 안전성과 정렬을 이해하기 위한 에이전트적 평가의 필요성을 강조합니다.

Insights

대화를 넘어선 마음 이론(Theory of Mind)과 설득: 계획 및 행동을 통해 신념 상태를 유도하는 LLM의 능력 평가

요약

핵심 포인트

댓글

해커, 테무 고객 데이터로 추정되는 정보를 판매 중이라고 주장

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기

해커, 테무 고객 데이터로 추정되는 정보를 판매 중이라고 주장

또 다른 암호화폐 기업, Russell 1000 지수 편입

J.P. Morgan, 스트레스 테스트 이후 500억 달러 규모의 자사주 매입 발표

Kilo CLI 실전 — roll-call로 500개 이상의 모델을 병렬 헬스 체크하기