AI 에이전트는 도형 회전기일까요? 새로운 벤치마크를 통해 @zachtronics의 퍼즐 게임 Opus Magnum의 캠페인 퍼즐을 플레이하는
요약
Opus Magnum 퍼즐 게임을 활용하여 AI 에이전트의 추론 및 최적화 능력을 테스트하는 새로운 벤치마크를 소개합니다. Claude Fable 5와 GPT-5.5가 우수한 성능을 보였으며, 모델들이 시각 정보 없이 Python REPL을 통해 복잡한 퍼즐을 해결하는 과정을 분석합니다.
핵심 포인트
- Opus Magnum 게임을 통한 AI 에이전트의 추론 능력 벤치마크 수행
- Claude Fable 5가 GPT-5.5와 Gemini 3.5 Flash를 제치고 가장 높은 성능 기록
- 에이전트들은 시각 정보 없이 육각형 좌표 기반의 Python REPL로 플레이
- Fable 5는 인간 세계 기록의 약 80% 수준에 도달하는 성과를 보임
- GLM 5.2가 오픈 웨이트 모델 중 가장 뛰어난 성능을 기록
AI 에이전트는 도형 회전기 (shape rotators)일까요? 이 새로운 벤치마크에서, 우리는 모델들이 @zachtronics의 퍼즐 게임인 Opus Magnum의 캠페인 퍼즐을 플레이하도록 했습니다.
아이러니하게도, Claude Opus 4.8은 저조한 성적을 거두었으며, GPT-5.5, Gemini 3.5 Flash, 그리고 GLM 5.2에게 패배했습니다. Claude Fable 5는 이들 모두를 압도했습니다.
이 게임에서 성공하려면, 에이전트는 도형 회전 (shape rotation), 병행성 (concurrency), 그리고 상충하는 트레이드오프 (tradeoffs) 사이의 최적화에 대해 추론해야 합니다. 모든 퍼즐에서 인간의 세계 기록 (world record)에 도달하는 것은 엄청난 업적이 될 것입니다.
에이전트들은 시각 정보 (vision) 없이, 육각형 좌표 (hex coords)를 사용하는 Python REPL을 통해서만 게임을 플레이했습니다.
Opus Magnum은 모델의 능력을 테스트하기 위한 멋진 테스트 베드 (test bed)입니다. 왜냐하면 각 퍼즐은 무한한 솔루션 공간 (solution space)을 가지고 있으며, 일부 솔루션은 다른 솔루션보다 더 높은 점수를 받기 때문입니다. 우리는 인간의 점수와 비교함으로써 품질을 판단할 수 있습니다. 1은 인간의 세계 기록 (WR)입니다.
다음은 Fable 5가 실행 과정에서 퍼즐을 최적화하는 모습입니다:
[IMG:1]
세 모델 모두가 해결한 퍼즐에서, Fable 5 (high)는 더 적은 턴 (turns) 안에 더 나은 솔루션에 도달함으로써 그다음으로 우수한 모델인 GPT-5.5 (xhigh)를 이겼으며, 마찬가지로 Fable 5 (low)를 앞질렀습니다.
[IMG:2]
이 차트는 Fable 5 (high)가 해결한 퍼즐에서 평균적으로 인간의 최고 점수의 80%에 도달했음을 보여줍니다.
[IMG:3]
어떤 언어 모델 (language model)도 36개의 퍼즐을 모두 해결하지는 못했습니다. Fable 5와 GPT-5.5가 가장 우수한 성능을 보였으며, GLM 5.2가 가장 뛰어난 오픈 웨이트 (open weights) 모델이었습니다. 어떤 모델도 인간의 세계 기록을 깨지는 못했지만, 몇몇 모델은 쉬운 퍼즐에서 기록에 근접하거나 일치하는 모습을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X 토픽: Claude/Anthropic의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기