LLM 에이전트의 반복 게임에서 나타나는 사회적 평판 및 기만 역학 분석
요약
본 연구는 대규모 언어 모델(LLM) 에이전트가 반복적인 숨겨진 역할 기반의 심리 게임인 '아발론 (Avalon)'을 플레이할 때 나타나는 사회적 역학 관계를 분석합니다. 기존 단일 게임 성능 평가와 달리, 에이전트들이 이전 상호작용의 기억(long memory)을 유지하는 것이 핵심입니다. 연구 결과, 장기 기억은 에이전트 간에 '평판 (reputation)' 시스템을 자연스럽게 형성하며, 이 평판은 역할 수행 방식과 연관되어 팀 참여도에 직접적인 영향을 미칩니다. 또한, 높은 추론 노력(reasoning effort)을 기울이는
핵심 포인트
- LLM 에이전트가 반복 게임에서 장기 기억을 유지할 때, '평판 (reputation)' 시스템이 자연적으로 발생하며 이는 팀 참여도에 영향을 미칩니다.
- 평판은 역할 조건적입니다: 동일한 에이전트가 선역(good)일 때는 '솔직하다'고 평가받지만, 악역(evil)일 때는 '교묘하다'는 방식으로 다르게 언급됩니다.
- 높은 추론 노력을 기울이는 악역 플레이어일수록 초기 임무를 통과시키는 전략적 기만 행위가 증가하며 (고노력 게임 75% vs 저노력 게임 36%), 이는 성공적인 사보타주를 위한 기반을 마련합니다.
- 총 188개 게임의 분석 결과, 반복 상호작용과 기억 유지는 LLM 에이전트 간에 측정 가능한 평판 및 기만 역학을 생성함을 입증했습니다.
본 연구는 대규모 언어 모델(LLM) 에이전트를 활용하여 숨겨진 역할 기반의 심리 게임인 '아발론 (Avalon)'에서 나타나는 사회적 상호작용과 역동성을 탐구합니다. 기존의 LLM 성능 평가는 단일 게임 환경에 국한되는 경우가 많았으나, 본 연구는 에이전트들이 이전 상호작용을 기억하는 장기 메모리(long memory)를 유지하며 반복적인 게임을 진행하도록 설계하여 사회적 역학 변화 과정을 관찰했습니다.
총 188개의 게임을 분석한 결과, 두 가지 핵심 현상이 발견되었습니다. 첫째는 '평판 역학 (reputation dynamics)'의 자연스러운 출현입니다. 에이전트들이 과거 행동에 대한 기억을 유지하면서,
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기