'배틀쉽' 게임을 활용해 AI 에이전트에게 더 나은 질문법 가르치기
요약
배틀쉽 게임을 활용해 AI 에이전트의 정보 탐색 및 질문 능력을 측정하는 BattleshipQA 데이터셋과 연구를 소개합니다. Monte Carlo 추론 전략과 Python 코드 변환 기술을 통해 소형 모델이 대형 모델의 성능을 비용 효율적으로 능가할 수 있음을 입증했습니다.
핵심 포인트
- BattleshipQA 데이터셋을 통한 AI 에이전트의 질문 능력 측정
- Monte Carlo 추론 전략으로 소형 모델의 승률을 8%에서 82%로 향상
- Python 코드를 활용한 auto-formalization으로 답변 정확도 개선
- 소형 모델이 GPT-5 수준의 성능을 1% 비용으로 달성 가능성 제시
- 고전 추리 게임
배틀쉽을 자연어 질문·응답 형태로 재구성해, 불확실한 환경에서 AI 에이전트가 좋은 질문을 던지는 능력을 측정하는 테스트베드 구축 - 한 명이 숨은 함선 위치를 묻는
선장(captain), 팀원이 실시간으로 답하는 관측자(spotter) 구조로 진행, 40명 이상이 플레이한 데이터로 BattleshipQA 데이터셋 제작 - 사전 학습 없이도 GPT-5 같은 대형 모델은 사람보다 적은 턴으로 승리했으나 소형 모델은 유용한 질문을 만드는 데 미숙해
Monte Carlo 추론 전략 적용 - Llama 4 Scout는 개선 전 사람 상대 승률 8%에서
82% 로 상승, GPT-5를 능가하면서도 비용은 약 1% 수준 - 작은 모델이 큰 모델을 비용 효율적으로 능가함을 입증,
희소 해 탐색(needle-in-a-haystack) 이 필요한 과학적 발견 분야의 잠재력 시사
연구 배경: AI 에이전트의 정보 탐색 한계
- 2026년 AI 에이전트에 대한 기대가 어느 때보다 높으며, 고객 서비스·소프트웨어 개발 같은 잘 정의된 작업을
언어 모델(LM) 기반으로 수행 - 의료 진단·과학 발견처럼 불확실한 환경에서 광범위한 해를 탐색해야 하는 분야는 LM이 어려움을 겪음
- MIT CSAIL과 Harvard SEAS 연구진이 고위험 상황에서 LM의 핵심 문제를 분석하고자, 인지과학에서
인간의 정보 탐색 연구에 쓰여온 배틀쉽을 테스트로 채택
Collaborative Battleship 게임과 BattleshipQA 데이터셋
- 게임을 자연어 질문·응답 중심으로 재구성, 한 참가자는 숨은 함선 위치를 묻는
선장, 팀원은 실시간으로 답하는 관측자 역할 - 40명 이상의 사람이 함께 플레이하며 질문과 예/아니오 답변을 수집해
BattleshipQA 데이터셋 구축 - 이 데이터는 GPT-5 같은 최신 LM과 Llama 4 Scout 같은 소형 모델 테스트 시 비교 기준으로 활용
- 사전 학습 없이도 최상위 LM은 사람보다 적은 턴으로 게임을 끝내 "이길" 수 있었으나, 소형 시스템은 훨씬 비합리적
더 나은 질문하기 — Monte Carlo 추론 전략
-
많은 모델이
유용한 질문을 만들어내지 못하는 것이 핵심 문제 -
각 모델에 매 응답마다 선택지의 정답 가능성을 측정하는
Monte Carlo 추론 전략을 부여, 규모와 무관하게 일반 플레이어를 이기는 결과 도출 -
LM이 가능한 추측을 개별
입자(particle) 로 다루며, 관측자의 답변마다 더 타당해 보이는 추측에 가중치를 높게 부여하는 적응적 방식 -
매 턴 부풀거나 줄어드는 게임 공처럼 작동, 선장이 관측자로부터 훨씬 많은 정보를 끌어내도록 함
-
Llama 4 Scout는 소형 모델로서 사람 상대 승률 8%에 불과했으나, 추론 전략 개선 후
82% 달성하고 GPT-5를 능가하면서도 비용은 약 1% 수준
더 정확히 답하기 — Python 코드 변환
-
GPT-5는 신뢰할 만한 관측자였으나, 소형 시스템은 함선 위치를 틀리게 답하는 습관 존재
-
선장의 질문을 자동으로
인코딩된 명령으로 변환해 관측자 LM이 답을 검증하도록 유도, 평균 정확도 15% 향상 -
예: "1열에 두 행에 걸친 함선이 있는가?" → 해당 영역을 탐색하고 게임 말의 폭을 평가하는 명령으로 변환
-
모델이 특히 잘 이해하는
Python 언어로 명확한 지시를 주자 정답률이 크게 상승 -
경량 모델 GPT-4o-mini는 약
30% 성능 향상, 대형 모델 Claude 4 Opus도 약 8포인트 상승 -
LM이 코드를 생성해 해를 검증하는
auto-formalization 전략의 성공을 바탕으로, 탐색·정보 수집 능력 개선을 통해 더 나은 해 생성 가능성 제시
다른 게임으로의 확장 — Guess Who?
- 100개 선택지를 좁혀 숨은 캐릭터를 맞히는
Guess Who? 에 동일 기법 적용 - Llama 4 Scout는 30%에서
72% 이상으로, GPT-4o는 62%에서 90% 로 상승, 각 게임에서 GPT-5가 관측자 역할 담당 - 모델은 사람보다
복잡한 질문에 답하는 데 여전히 어려움 - GPT-5는 평균적 배틀쉽 플레이어를 이기고 기법 적용 시 소폭 개선되나, 체스와 달리 전문가 플레이어는 모든 모델이 이기기 어려움
남은 과제와 향후 방향
-
AI 에이전트가 방대한 선택지 속에서 희소 해를 찾는
needle-in-a-haystack 탐색에서 잠재력 보유 -
화합물의 분자 구조 식별 같은 과학적 과제에서 우수한 연구 보조로 활용 가능
-
Collaborative Battleship은 비교적 단순한 테스트베드로, 더 많은 선택지를 고려해야 하는
복잡한 환경에서의 추가 검증 필요 -
사람과 AI의 협업 효과 연구, 게임 시뮬레이션 기반
미세조정, 더 많은 연산 자원을 통한 고급 추론 능력 확보 계획 -
에이전트가 자율화될수록 공통 기반 추적·오해 해소·파트너 적응 같은
사회적 문제가 가장 어려우며, 최적 질문 계산뿐 아니라 답을 최대한 활용하는 실용적 추론이 진짜 병목이라는 평가
댓글과 토론
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기