본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 06. 19. 13:10

GameCraft-Bench: 에이전트가 실제 게임 엔진에서 엔드투엔드(End-to-End)로 플레이 가능한 게임을 제작할 수 있는가?

요약

에이전트가 실제 게임 엔진을 사용하여 엔드투엔드로 게임을 제작할 수 있는지 평가하는 새로운 벤치마크인 GameCraft-Bench를 소개합니다. Opus-4.7, GPT-5.5 등 최신 대형 모델들의 성능을 측정하며, 향후 중간 크기 모델들의 발전 가능성을 논의합니다.

핵심 포인트

  • 게임 엔진 기반의 엔드투엔드 게임 제작 능력 평가 벤치마크 제시
  • Opus-4.7, GPT-5.5 등 최신 대형 모델들의 성능 비교 수행
  • 30-70B 규모의 중간 크기 모델에 대한 성능 기대 및 연구 필요성 언급

arXiv : https://arxiv.org/abs/2606.17861
Full Paper : https://arxiv.org/pdf/2606.17861
HuggingFace : https://huggingface.co/papers/2606.17861
GitHub : https://github.com/tongxuluo/gamecraft-bench
Project : https://tongxuluo.github.io/gamecraft-bench-website/

벤치마크에서 거대/대형 모델들(Opus-4.7, GPT-5.5, Kimi-K2.6, MiMo-V2.5-Pro, GLM-5.1, MiniMax-M2.7, DeepSeek-V4-Pro)을 보고 있습니다. 중간 크기 모델들(예: Qwen3.6-27B, Gemma-4-31B)이 이 벤치마크에서 어떤 성능을 보여줄지 궁금하네요.
올해 말까지는 (모든 분야에서... 적어도 코딩과 글쓰기 분야에서는) 200B+ 모델 수준의 성능을 가진 훌륭한 중간 크기(30-70B) 모델들을 만날 수 있기를 바랍니다.
submitted by /u/pmttyji to r/LocalLLaMA
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0