&#039;배틀쉽&#039; 게임을 활용해 AI 에이전트에게 더 나은 질문법 가르치기

'배틀쉽' 게임을 활용해 AI 에이전트에게 더 나은 질문법 가르치기

요약

배틀쉽 게임을 활용해 AI 에이전트의 정보 탐색 및 질문 능력을 측정하는 BattleshipQA 데이터셋과 연구를 소개합니다. Monte Carlo 추론 전략과 Python 코드 변환 기술을 통해 소형 모델이 대형 모델의 성능을 비용 효율적으로 능가할 수 있음을 입증했습니다.

핵심 포인트

BattleshipQA 데이터셋을 통한 AI 에이전트의 질문 능력 측정
Monte Carlo 추론 전략으로 소형 모델의 승률을 8%에서 82%로 향상
Python 코드를 활용한 auto-formalization으로 답변 정확도 개선
소형 모델이 GPT-5 수준의 성능을 1% 비용으로 달성 가능성 제시

고전 추리 게임
배틀쉽을 자연어 질문·응답 형태로 재구성해, 불확실한 환경에서 AI 에이전트가 좋은 질문을 던지는 능력을 측정하는 테스트베드 구축
한 명이 숨은 함선 위치를 묻는
선장(captain), 팀원이 실시간으로 답하는 관측자(spotter) 구조로 진행, 40명 이상이 플레이한 데이터로 BattleshipQA 데이터셋 제작
사전 학습 없이도 GPT-5 같은 대형 모델은 사람보다 적은 턴으로 승리했으나 소형 모델은 유용한 질문을 만드는 데 미숙해
Monte Carlo 추론 전략 적용
Llama 4 Scout는 개선 전 사람 상대 승률 8%에서
82% 로 상승, GPT-5를 능가하면서도 비용은 약 1% 수준
작은 모델이 큰 모델을 비용 효율적으로 능가함을 입증,
희소 해 탐색(needle-in-a-haystack) 이 필요한 과학적 발견 분야의 잠재력 시사

연구 배경: AI 에이전트의 정보 탐색 한계

2026년 AI 에이전트에 대한 기대가 어느 때보다 높으며, 고객 서비스·소프트웨어 개발 같은 잘 정의된 작업을
언어 모델(LM) 기반으로 수행
의료 진단·과학 발견처럼 불확실한 환경에서 광범위한 해를 탐색해야 하는 분야는 LM이 어려움을 겪음
MIT CSAIL과 Harvard SEAS 연구진이 고위험 상황에서 LM의 핵심 문제를 분석하고자, 인지과학에서
인간의 정보 탐색 연구에 쓰여온 배틀쉽을 테스트로 채택

Collaborative Battleship 게임과 BattleshipQA 데이터셋

게임을 자연어 질문·응답 중심으로 재구성, 한 참가자는 숨은 함선 위치를 묻는
선장, 팀원은 실시간으로 답하는 관측자 역할
40명 이상의 사람이 함께 플레이하며 질문과 예/아니오 답변을 수집해
BattleshipQA 데이터셋 구축
이 데이터는 GPT-5 같은 최신 LM과 Llama 4 Scout 같은 소형 모델 테스트 시 비교 기준으로 활용
사전 학습 없이도 최상위 LM은 사람보다 적은 턴으로 게임을 끝내 "이길" 수 있었으나, 소형 시스템은 훨씬 비합리적

더 나은 질문하기 — Monte Carlo 추론 전략

많은 모델이
유용한 질문을 만들어내지 못하는 것이 핵심 문제
각 모델에 매 응답마다 선택지의 정답 가능성을 측정하는
Monte Carlo 추론 전략을 부여, 규모와 무관하게 일반 플레이어를 이기는 결과 도출
LM이 가능한 추측을 개별
입자(particle) 로 다루며, 관측자의 답변마다 더 타당해 보이는 추측에 가중치를 높게 부여하는 적응적 방식
매 턴 부풀거나 줄어드는 게임 공처럼 작동, 선장이 관측자로부터 훨씬 많은 정보를 끌어내도록 함
Llama 4 Scout는 소형 모델로서 사람 상대 승률 8%에 불과했으나, 추론 전략 개선 후
82% 달성하고 GPT-5를 능가하면서도 비용은 약 1% 수준

더 정확히 답하기 — Python 코드 변환

GPT-5는 신뢰할 만한 관측자였으나, 소형 시스템은 함선 위치를 틀리게 답하는 습관 존재
선장의 질문을 자동으로
인코딩된 명령으로 변환해 관측자 LM이 답을 검증하도록 유도, 평균 정확도 15% 향상
예: "1열에 두 행에 걸친 함선이 있는가?" → 해당 영역을 탐색하고 게임 말의 폭을 평가하는 명령으로 변환
모델이 특히 잘 이해하는
Python 언어로 명확한 지시를 주자 정답률이 크게 상승
경량 모델 GPT-4o-mini는 약
30% 성능 향상, 대형 모델 Claude 4 Opus도 약 8포인트 상승
LM이 코드를 생성해 해를 검증하는
auto-formalization 전략의 성공을 바탕으로, 탐색·정보 수집 능력 개선을 통해 더 나은 해 생성 가능성 제시

다른 게임으로의 확장 — Guess Who?

100개 선택지를 좁혀 숨은 캐릭터를 맞히는
Guess Who? 에 동일 기법 적용
Llama 4 Scout는 30%에서
72% 이상으로, GPT-4o는 62%에서 90% 로 상승, 각 게임에서 GPT-5가 관측자 역할 담당
모델은 사람보다
복잡한 질문에 답하는 데 여전히 어려움
GPT-5는 평균적 배틀쉽 플레이어를 이기고 기법 적용 시 소폭 개선되나, 체스와 달리 전문가 플레이어는 모든 모델이 이기기 어려움

남은 과제와 향후 방향

AI 에이전트가 방대한 선택지 속에서 희소 해를 찾는
needle-in-a-haystack 탐색에서 잠재력 보유
화합물의 분자 구조 식별 같은 과학적 과제에서 우수한 연구 보조로 활용 가능
Collaborative Battleship은 비교적 단순한 테스트베드로, 더 많은 선택지를 고려해야 하는
복잡한 환경에서의 추가 검증 필요
사람과 AI의 협업 효과 연구, 게임 시뮬레이션 기반
미세조정, 더 많은 연산 자원을 통한 고급 추론 능력 확보 계획
에이전트가 자율화될수록 공통 기반 추적·오해 해소·파트너 적응 같은
사회적 문제가 가장 어려우며, 최적 질문 계산뿐 아니라 답을 최대한 활용하는 실용적 추론이 진짜 병목이라는 평가

댓글과 토론

AI 자동 생성 콘텐츠

원문 바로가기