AI 에이전트가 4살 아이에게 주는 테스트를 통과할 수 있을까?
요약
AI 에이전트가 타인의 잘못된 믿음을 이해하는 '마음 이론(Theory of Mind)'을 구현하는 방법과 그 중요성을 다룹니다. 단순한 현실 추론을 넘어 타인의 관점을 추적하는 능력이 협업 에이전트의 핵심임을 강조합니다.
핵심 포인트
- 마음 이론은 타인이 사실과 다른 믿음을 가질 수 있음을 이해하는 능력임
- 에이전트가 타인의 관점을 유지하는 것은 업무 위임과 설명에 필수적임
- 단순한 도구를 넘어 진정한 협업자가 되기 위한 핵심 기술임
- Python 코드를 통해 Sally-Anne 테스트를 직접 구현하고 실험 가능
약 60줄의 Python 코드로 구현한 마음 이론 (Theory of Mind) 및 Sally-Anne 오해 테스트 (false-belief test).
요약 (TL;DR): 아이들이 4세 정도가 되면 통과하는 유명한 테스트가 있습니다. 이 테스트는 _타인이 사실이 아닌 것을 믿을 수 있다는 점_을 이해하는지 확인합니다. 저는 두 가지 AI 에이전트를 만들었습니다. 하나는
따라서 Sally가 외출한 동안 Anne이 구슬을 옮기면, Anne의 정신적 모델(mental picture)만 업데이트됩니다. Sally의 모델은 "바구니" 상태로 고정되어 있습니다. 단순한 에이전트에게 물어보면 그저 현실("상자")을 보고할 뿐입니다. 하지만 더 똑똑한 에이전트에게 물어보면 _Sally_의 관점에서 답변합니다("바구니").
이것이 전부입니다. 하지만 "각각의 다른 사람이 무엇을 알고 있는가"에 대한 별도의 모델을 유지하는 것이, 좋은 팀원이 될 수 있는 에이전트와 그렇지 못한 에이전트를 가르는 차이점입니다.
이것이 단순한 귀여운 퍼즐이 아닌 이유
다중 에이전트(또는 인간과 협업하는 에이전트)에 관한 유용한 거의 모든 기능에는 이것이 필요합니다:
- 업무 인수인계 (Handing off work): 업무를 위임하려면, 당신이 이미 무엇을 알고 있는지 알아야 합니다.
- 설명하기 (Explaining things): 모든 정보를 쏟아붓는 것이 아니라, 당신이 모르는 부분을 알려주어야 합니다.
- 경고하기 (Warning someone): "주의하세요, Sally는 아직 구슬이 바구니에 있다고 생각해요"라는 말은, 제가 Sally의 잘못된 믿음(wrong belief)을 추적할 수 있을 때만 유효합니다.
- 혼란 방지 (Not causing chaos): 자신이 아는 것을 모두가 알고 있다고 가정하는 에이전트는 중요한 정보를 건너뛰고 잘못된 가정을 하게 됩니다.
오늘날 대부분의 AI는 _세상(the world)_에 대해 추론합니다. 2026년의 변화는 _세상 속의 사람들_에 대해, 즉 그들이 틀렸을 때를 포함하여 추론하는 것입니다. 그것이 스마트한 도구를 진정한 협업자로 만드는 핵심입니다.
세상에 대해 똑똑한 것은 좋은 도구를 만듭니다. _타인_에 대해 똑똑한 것은 좋은 팀원을 만듭니다.
직접 해보기
git clone https://github.com/Shridhar-2205/living-software
cd living-software/03-theory-of-mind
python demo.py
솔직한 말씀드리면: 실제 버전은 누군가의 행동을 관찰함으로써 그가 무엇을 믿는지 파악해야(figure out) 하며, 이는 훨씬 더 어렵습니다. 여기서는 단순히 에이전트에게 누가 방에 있었는지 알려줌으로써, 핵심 아이디어인 "현실과 별개로 믿음을 추적한다"는 점을 최대한 명확하게 보여줍니다.
_작성자: Shridhar Shah, Cisco의 Outshift 소속 시니어 소프트웨어 엔지니어 — AI 에이전트, 검색, 그리고 그들이 "생각하는" 방식에 대해 다룹니다. "Toward Living Software"의 파트 3입니다. GitHub · LinkedIn
배경 (Background): Sally-Anne 거짓 믿음 테스트 (Sally-Anne false-belief test; Baron-Cohen, Leslie & Frith, 1985); Kosinski, "마음 이론 (Theory of Mind) 과제에서의 대규모 언어 모델 (Large Language Models) 평가" (Evaluating Large Language Models in Theory of Mind Tasks; PNAS 2024 / arXiv:2302.02083); 그리고 이것이 여전히 얼마나 취약한지를 보여주는 2026년 후속 연구 — "인공 마음 이론의 이해" (Understanding Artificial Theory of Mind; arXiv:2602.22072).
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기