Triadic Werewolf: LLM의 멀티홉 마음 이론 (Multi-Hop Theory of Mind)을 위한 광대 역할
요약
LLM의 마음 이론(ToM) 평가를 위해 기존 이자 관계 게임에 '광대' 역할을 추가한 Triadic Werewolf 게임을 제안합니다. GPT-4.1, DeepSeek-V3.1, Llama-3.3-70B를 대상으로 실험한 결과, 삼자 관계의 인센티브 구조가 멀티 에이전트 추론 능력을 측정하는 데 효과적임을 입증했습니다.
핵심 포인트
- 광대 역할을 통해 멀티홉 마음 이론(Multi-Hop ToM) 평가 가능
- 삼자 관계 인센티브 구조가 기존 이자 관계보다 복잡한 추론 요구
- 모델별(GPT-4.1, DeepSeek, Llama) 자기 학습 효과 및 전략 차이 확인
- DeepSeek만이 의도적으로 의심을 유도하는 미묘한 전략 학습 성공
대규모 언어 모델 (LLM)의 마음 이론 (Theory-of-mind) 평가는 일반적으로 모든 관찰 가능한 단서가 단일한 숨겨진 측면을 가리키는 이자 관계 (dyadic) 사회적 연역 게임을 사용합니다. 따라서 강력한 언어 사전 지식 (language priors)을 가진 모델은 상대방의 동기 (incentives)를 시뮬레이션하지 않고도 높은 점수를 얻을 수 있습니다. 우리는 Werewolf 게임에 광대 (Jester)를 추가하여 확장합니다. 광대는 동료의 의심을 받는 것에 대해 효용 (utility)이 반전되는 제3의 파벌로, 투표를 통해 탈락함으로써 승리하기 때문에 최적의 플레이를 위해서는 세 가지 상충하는 효용 함수 (utility functions)를 가로지르는 추론이 필요합니다. 광대의 자기 학습 (self-learning) 적용 여부에 따라 GPT-4.1, DeepSeek-V3.1, Llama-3.3-70B를 대상으로 60회의 게임을 진행한 결과, 광대는 게임의 60-70%를 승리하는 반면 Werewolf는 20%를 넘지 못했습니다. 또한 GPT-4.1의 Werewolf들은 60-70%의 게임에서 첫날 광대를 투표로 탈락시키는데, 이는 엄격하게 자기 패배적인 행동 (self-defeating action)입니다. 자기 학습은 DeepSeek와 Llama에는 도움이 되지만 GPT-4.1에는 해가 되며, 그 비용은 Werewolf가 아닌 마을 주민 (Villagers)들에게 전가됩니다. 오직 DeepSeek만이 의도적으로 의심스러워 보이지 않으면서도 미묘하게 의심스러워 보이는 전략을 학습하며, 루프 (loop)를 통해 가장 많은 이득을 얻습니다. 삼자 관계 (Triadic) 인센티브 구조는 이자 관계 (dyadic) 연역 게임에서는 보이지 않았던 멀티 에이전트 추론 (multi-agent reasoning)의 층위를 드러냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기