Reddit중요요약2026. 04. 24. 07:03

LLM 기반 코딩 게임 비교: Qwen3.5부터 Gemma 4까지의 성능 분석

요약

본 글은 다양한 대규모 언어 모델(LLMs)들이 코딩을 통해 인터랙티브 레이싱 게임을 생성하는 과정을 비교 분석한 결과입니다. 참가 모델로는 Qwen3.6 35B, Qwen3.5 122B, Qwen3.5 27B, Qwen3.5 4B, Gemma 4 31B, Gemma 4 26B, Qwen3 Coder Next, GLM 4.7 Flash 등이 포함됩니다. 테스트는 Vision 기능 비활성화 및 동일한 초기 프롬프트 설정을 기반으로 진행되었으며, 각 모델의 코드 생성 능력, 디버깅 과정, 그리고 최종 게임 구현 품질을 비교했습니다. 흥

핵심 포인트

Gemma 4 26B와 GLM 4.7 Flash는 서브 에이전트(subagent)를 성공적으로 스폰하여 계획 및 사운드 추가 등의 복잡한 작업을 수행하는 능력을 보였습니다.
Qwen3.5 27B 모델은 마지막 턴에서 Playwright MCP 비활성화라는 우발적 오류가 발생하면서 실제로 움직이고 조향하는 차량을 구현해냈으며, 타이어 회전 기능도 구현한 유일한 모델입니다.
Gemma 4 31B와 Qwen3.5 27B는 다른 모델들과 달리 매 턴마다 전체 코드를 출력하는 경향을 보여 코드 추적 및 디버깅 측면에서 특징적인 패턴을 보였습니다.
Qwen3.6 35B의 게임은 초기 대비 회귀(regression) 현상을 겪었으며, 트랙이 더 좁아지고 히트박스(hit boxes)가 정확해지는 등 여러 변화를 보여주었습니다.

본 비교 테스트는 다양한 LLM들이 코딩을 통해 인터랙티브 레이싱 게임을 생성하는 과정을 심층적으로 분석한 결과입니다. 참가 모델로는 Qwen3.6 35B, Qwen3.5 122B, Qwen3.5 27B, Qwen3.5 4B, Gemma 4 31B, Gemma 4 26B, Qwen3 Coder Next, GLM 4.7 Flash 등이 포함되었습니다.

테스트 환경 및 방법론:
비교의 공정성을 위해 Vision 기능은 비활성화되었으며, 모든 모델에 동일한 초기 프롬프트(start prompt)가 제공되었습니다. 테스트는 총 3턴 동안 진행되었고, 각 턴마다 발생하는 문제점들을 LLM들에게 지적하며 디버깅 과정을 거쳤습니다. (참고: Qwen3 Coder Next와 Qwen3.5 4B 간의 비교 시에만 Vision 기능이 비활성화된 것이 아니라 전체적으로 적용되었습니다.)

주요 모델별 관찰 결과:

Qwen3.5 27B (강점): 이 모델은 가장 흥미로운 결과를 보여주었습니다. 마지막 턴에서 Playwright MCP를 실수로 비활성화하는 과정이 오히려 차량이 실제로 움직이고 적절한 속도로 조향할 수 있게 만든 결정적인 계기가 되었습니다. 또한, 타이어가 회전하는 기능(비록 눈에 띄지 않을지라도)을 구현한 유일한 모델입니다.
Gemma 4 26B (강점): 이 모델은 사운드 기능을 추가한 유일한 모델이었습니다. 다만, 초기에는 'Team Rocket' 차량 폭발 기능 등을 추가했으나, 이후 OpenCode가 중간에 충돌하면서 해당 기능이 불안정해져 최종 버전에서는 흥미도가 다소 떨어지는 사운드 버전으로 마무리되었습니다.
서브 에이전트 활용 (GLM 4.7 Flash & Gemma 4 26B): GLM 4.7 Flash와 Gemma 4 26B는 서브 에이전트(subagent)를 스폰하는 능력을 보여주었습니다. GLM은 계획 단계에서 연구 목적으로 이를 사용했고, Gemma는 마지막 턴에 사운드를 구현하기 위해 활용했습니다.
코드 출력 패턴 (Gemma 4 31B & Qwen3.5 27B): 이 두 모델은 다른 참가자들과 달리 매 턴마다 전체 코드를 출력하는 경향을 보였습니다. 이는 코드의 추적 및 디버깅 과정에서 독특한 특징으로 작용했습니다.
기타 관찰 사항:
- Qwen3 Coder Next는 트랙이 존재하지만, 그 구조가 눈에 보이지 않는 벽(invisible walls)들로 이루어져 있다는 점이 확인되었습니다.
- Qwen3.6 35B의 게임은 시작과 비교했을 때 여러 면에서 성능 저하(regression)를 겪었습니다. 특히 미니맵(Minimap) 기능이 트랙 지도와 물리적 트랙 간에 혼동을 보이는 등 오류가 발견되었습니다.
- Qwen3.5 4B는 버그 수정 턴(turn 2/3)에서 NPX를 사용하여 자체 Playwright 버전을 설치하고, 이후 두 버전을 모두 사용하기 시작하는 복잡한 과정을 거쳤습니다.

결론: 이 비교 테스트는 단순히 모델의 크기나 이름만으로 성능을 판단할 수 없음을 보여줍니다. 각 LLM은 고유한 방식으로 문제를 해결하려 시도하며, 때로는 의도치 않은 오류(accidental failure)가 오히려 창의적이고 기능적인 개선을 가져오는 사례를 목격할 수 있었습니다. 이는 복잡하고 다단계적인 코딩 작업에서 모델 간의 상호작용과 디버깅 능력이 핵심임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 기반 코딩 게임 비교: Qwen3.5부터 Gemma 4까지의 성능 분석

요약

핵심 포인트

댓글