Reddit요약2026. 06. 18. 12:35

Evalatro: LLM이 실제 Balatro 게임을 플레이하는 오픈 벤치마크

요약

LLM이 실제 게임인 Balatro를 플레이하며 전략적 능력을 평가하는 오픈 벤치마크 'Evalatro'가 공개되었습니다. 모델은 텍스트 구조로 게임 상태를 전달받아 스스로 플레이하며, 재현성을 위한 고정 시드와 공개 리더보드를 제공합니다.

핵심 포인트

실제 게임 Balatro를 활용한 LLM 전략 및 추론 능력 평가
재현성을 위한 고정 시드 및 조작 불가능한 서버 기반 점수 계산
현재 주요 모델들이 Ante 12 클리어에 어려움을 겪는 높은 난이도
모델의 추론 과정 관찰 및 런(run) 재현 기능 지원

안녕하세요! 제가 Evalatro를 만들었습니다. 여러분의 LLM이 실제 Balatro를 플레이하는 오픈 벤치마크입니다. 진짜 게임이죠. 제가 게임을 플레이하면서 Claude에게 레벨을 깨는 데 도움을 달라고 계속 요청하면서(네, 제가 너무 약해서요) 시작되었습니다. 그냥 스크린샷을 던져주고 전술을 물어보곤 했죠. 그러다 아이디어가 더 커졌고, 조금 더 깊게 파고들어 보기로 했습니다. 파고들어 보니... 처음에는 모드를 통해 MCP를 구축하고 싶었지만, 이미 존재하는 것이 있더군요 - balatrobot (원작자에게 경의를 표합니다). 그렇게 시작되었습니다. 모델은 게임에 연결되며, 매 턴마다 이미지가 아닌 텍스트 구조로 상태를 전달받아 스스로 무엇을 플레이할지 결정합니다. 전술적 힌트는 없습니다.

이미 구현된 기능:

재현성을 위한 고정된 시드 (fixed seeds) — 모든 모델이 동일한 딜을 봅니다.
실제 Balatro + Steamodded + balatrobot
라이브 뷰어 및 공개 리더보드
런(run)이 끝나면 결과가 공개 대시보드로 전송됩니다 (개인 정보 없음 — 키, 경로 등 포함 안 됨; 소스 오픈)
점수는 클라이언트가 아닌 서버에서 계산되므로 조작할 수 없습니다.
벤치마크 목표는 단순히 기본 게임인 Ante 8에서 이기는 것이 아니라, Ante 12를 클리어하는 것입니다 (다소 임의로 정했으며, 토론의 여지가 있습니다).
Windows/macOS 자동 설치
모델의 추론 과정을 지켜볼 수 있으며 (이 부분이 재미있습니다) 모든 런을 다시 재생할 수 있습니다.
런을 시작하기 전에 모든 것이 해제된 별도의 게임 프로필을 설정하여 모델이 제한되지 않도록 합니다 (사용자의 메인 세이브는 건드리지 않습니다).

지금까지는 모델을 아주 조금, 몇 개만 실행해 보았으므로 순위표가 아닌 탐색 단계로 간주해 주세요. 하지만 이미 재미있는 결과가 나왔습니다. 아무도 Ante 12 근처에도 가지 못했습니다. 선두인 mimo-v2.5-pro는 겨우 Ante 5까지 기어갔습니다. deepseek-v4-pro도 있었는데, Ante 8의 보스를 깨지 못했습니다만, 리더보드 업데이트 이후 결과를 잃어버렸습니다.

따라서 도전은 활짝 열려 있습니다. 모델들이 고전하는 모습을 와서 지켜보세요. Balatro 플레이어들과 LLM 커뮤니티의 피드백을 받고 싶습니다: Ante 12가 합리적인 기준인가요, 아니면 과한가요? "도달함 / 도달하지 못함" 외에 측정할 가치가 있는 다른 것은 무엇일까요? 벤치마크를 속일 수 없도록 구멍을 어떻게 메워야 할까요?

저는 벤치마크를 구축하는 데 아주 능숙한 전문가는 아닙니다. 추신: GitHub에서 별(star)을 눌러주신다면 끝없이 감사하겠습니다! 링크: Github: https://github.com/alesha-pro/evalatro Public Dashboard: evalatro.dev /u/awfulalexey 님이 r/LocalLLaMA에 제출함 [link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Evalatro: LLM이 실제 Balatro 게임을 플레이하는 오픈 벤치마크

요약

핵심 포인트

댓글