LLM의 시대: 전장의 안개(Fog of War) 상황에서 대규모 언어 모델의 추론, 외교 및 신뢰성을 평가하기 위한 전략적 1v1 벤치마크
요약
LLM의 추론, 외교, 신뢰성을 평가하기 위한 1v1 전략 게임 벤치마크인 'Age of LLM'을 소개합니다. 전장의 안개와 엄격한 JSON 스키마 환경에서 15개 모델을 테스트하여 모델의 신념 추적 및 기만 능력을 분석했습니다.
핵심 포인트
- 전장의 안개와 외교 상황을 포함한 전략적 1v1 벤치마크 설계
- 핵 공격 위주의 지배적인 플레이 패턴 확인
- 불법 행동률을 통한 모델의 신념 추적(belief-tracking) 능력 측정
- 데이터 오염 방지를 위한 무작위 맵 시드 및 비공개 엔진 사용
우리는 두 개의 LLM이 13x7 그리드에서 적의 기지를 파괴하기 위해 맞붙는 턴제 1v1 벤치마크인 Age of LLM을 소개합니다. 세 가지 스트레스 요인이 의도적으로 설계되었습니다: 전장의 안개 (fog of war), 완전한 외교 (메시지, 휴전, 최후통첩; 우라늄 정보는 비밀 유지), 그리고 모든 턴이 엄격한 JSON 스키마 (JSON schema)를 따라야 하며 불법적인 행동은 조용히 폐기되는 신뢰성 (reliability) 차원입니다. 엔진은 비공개이며, 각 매치는 새로운 무작위 맵 시드 (seed)와 상대를 사용하여 공개 벤치마크에 영향을 미치는 데이터 오염 (data contamination) 문제를 완화합니다. 모델들은 빌드 오더 (build-order) 조언 없이 (거의) 규칙만을 포함한 프롬프트 (prompt)를 받습니다 (데이터 수집 과정에서 두 개의 전술적 시드 문구가 포함되었습니다; 섹션 2.7 참조). 우리는 54번의 매치와 5,258개의 행동에 걸쳐 15개의 추론 모델을 벤치마킹했습니다. 연구 결과: (1) 핵 공격 (nuclear rush)이 지배적이며 (규칙을 준수하는 v0.11+ 하위 코퍼스에서 78%, 코퍼스 전체에서 85%), 이는 비밀 동시 발사 규칙 하에서 주로 기계적인 단일 발사기 특징을 보이며, 인지적 억제 실패가 아닙니다; (2) 군사적 정복은 드물지만 더 빠릅니다 (12.3턴 대 18.9턴); (3) 외교는 활발하게 일어나지만 거의 실현되지 않습니다; (4) 불법 행동의 약 58%는 안개/상태 오류이며, 이는 불법 행동률이 신념 추적 (belief-tracking)의 척도가 됨을 의미합니다; (5) 가장 확립되지 않았으며 우리가 탐색적이라고 명명한 유일한 항목은, 신뢰성과 승리 사이에 약한 연결 고리가 있다는 점입니다. 코퍼스는 작고 불균형하며 사이드 스왑 (side-swapped)되지 않았으므로, 순위는 예비적인 기술적 관점일 뿐 기여를 목적으로 하지 않습니다. 순위 산정을 넘어, 행동과 메시지의 턴별 추적은 LLM이 적대적 불확실성 하에서 어떻게 추론하는지(그들의 신념 추적, 자발적 기만, 그리고 모델별 인지적 '페르소나')를 보여주는 렌즈 역할을 하며, 우리는 이를 향후 연구 방향으로 설정합니다. 우리는 리플레이 형식, 아이소메트릭 뷰어 (isometric viewer) 및 모든 리플레이를 공개하며, 엔진 소스 코드는 요청 시 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기