LLM 기반 코딩 게임 비교: Qwen3.5부터 Gemma 4까지의 성능 분석
요약
본 글은 다양한 대규모 언어 모델(LLMs)들이 코딩을 통해 인터랙티브 레이싱 게임을 생성하는 과정을 비교 분석한 결과입니다. 참가 모델로는 Qwen3.6 35B, Qwen3.5 122B, Qwen3.5 27B, Qwen3.5 4B, Gemma 4 31B, Gemma 4 26B, Qwen3 Coder Next, GLM 4.7 Flash 등이 포함됩니다. 테스트는 Vision 기능 비활성화 및 동일한 초기 프롬프트 설정을 기반으로 진행되었으며, 각 모델의 코드 생성 능력, 디버깅 과정, 그리고 최종 게임 구현 품질을 비교했습니다. 흥
핵심 포인트
- Gemma 4 26B와 GLM 4.7 Flash는 서브 에이전트(subagent)를 성공적으로 스폰하여 계획 및 사운드 추가 등의 복잡한 작업을 수행하는 능력을 보였습니다.
- Qwen3.5 27B 모델은 마지막 턴에서 Playwright MCP 비활성화라는 우발적 오류가 발생하면서 실제로 움직이고 조향하는 차량을 구현해냈으며, 타이어 회전 기능도 구현한 유일한 모델입니다.
- Gemma 4 31B와 Qwen3.5 27B는 다른 모델들과 달리 매 턴마다 전체 코드를 출력하는 경향을 보여 코드 추적 및 디버깅 측면에서 특징적인 패턴을 보였습니다.
- Qwen3.6 35B의 게임은 초기 대비 회귀(regression) 현상을 겪었으며, 트랙이 더 좁아지고 히트박스(hit boxes)가 정확해지는 등 여러 변화를 보여주었습니다.
본 비교 테스트는 다양한 LLM들이 코딩을 통해 인터랙티브 레이싱 게임을 생성하는 과정을 심층적으로 분석한 결과입니다. 참가 모델로는 Qwen3.6 35B, Qwen3.5 122B, Qwen3.5 27B, Qwen3.5 4B, Gemma 4 31B, Gemma 4 26B, Qwen3 Coder Next, GLM 4.7 Flash 등이 포함되었습니다.
테스트 환경 및 방법론:
비교의 공정성을 위해 Vision 기능은 비활성화되었으며, 모든 모델에 동일한 초기 프롬프트(start prompt)가 제공되었습니다. 테스트는 총 3턴 동안 진행되었고, 각 턴마다 발생하는 문제점들을 LLM들에게 지적하며 디버깅 과정을 거쳤습니다. (참고: Qwen3 Coder Next와 Qwen3.5 4B 간의 비교 시에만 Vision 기능이 비활성화된 것이 아니라 전체적으로 적용되었습니다.)
주요 모델별 관찰 결과:
- Qwen3.5 27B (강점): 이 모델은 가장 흥미로운 결과를 보여주었습니다. 마지막 턴에서 Playwright MCP를 실수로 비활성화하는 과정이 오히려 차량이 실제로 움직이고 적절한 속도로 조향할 수 있게 만든 결정적인 계기가 되었습니다. 또한, 타이어가 회전하는 기능(비록 눈에 띄지 않을지라도)을 구현한 유일한 모델입니다.
- Gemma 4 26B (강점): 이 모델은 사운드 기능을 추가한 유일한 모델이었습니다. 다만, 초기에는 'Team Rocket' 차량 폭발 기능 등을 추가했으나, 이후 OpenCode가 중간에 충돌하면서 해당 기능이 불안정해져 최종 버전에서는 흥미도가 다소 떨어지는 사운드 버전으로 마무리되었습니다.
- 서브 에이전트 활용 (GLM 4.7 Flash & Gemma 4 26B): GLM 4.7 Flash와 Gemma 4 26B는 서브 에이전트(subagent)를 스폰하는 능력을 보여주었습니다. GLM은 계획 단계에서 연구 목적으로 이를 사용했고, Gemma는 마지막 턴에 사운드를 구현하기 위해 활용했습니다.
- 코드 출력 패턴 (Gemma 4 31B & Qwen3.5 27B): 이 두 모델은 다른 참가자들과 달리 매 턴마다 전체 코드를 출력하는 경향을 보였습니다. 이는 코드의 추적 및 디버깅 과정에서 독특한 특징으로 작용했습니다.
- 기타 관찰 사항:
- Qwen3 Coder Next는 트랙이 존재하지만, 그 구조가 눈에 보이지 않는 벽(invisible walls)들로 이루어져 있다는 점이 확인되었습니다.
- Qwen3.6 35B의 게임은 시작과 비교했을 때 여러 면에서 성능 저하(regression)를 겪었습니다. 특히 미니맵(Minimap) 기능이 트랙 지도와 물리적 트랙 간에 혼동을 보이는 등 오류가 발견되었습니다.
- Qwen3.5 4B는 버그 수정 턴(turn 2/3)에서 NPX를 사용하여 자체 Playwright 버전을 설치하고, 이후 두 버전을 모두 사용하기 시작하는 복잡한 과정을 거쳤습니다.
결론: 이 비교 테스트는 단순히 모델의 크기나 이름만으로 성능을 판단할 수 없음을 보여줍니다. 각 LLM은 고유한 방식으로 문제를 해결하려 시도하며, 때로는 의도치 않은 오류(accidental failure)가 오히려 창의적이고 기능적인 개선을 가져오는 사례를 목격할 수 있었습니다. 이는 복잡하고 다단계적인 코딩 작업에서 모델 간의 상호작용과 디버깅 능력이 핵심임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기