Qwen3.6-27B를 3-critic 하네스(harness)로 실행해 보았습니다. 하네스의 중요성이 생각보다 큽니다
요약
Qwen3.6-27B 모델을 3개의 비평가(critics)로 구성된 코딩 하네스에서 실행한 결과, 프론티어 모델 수준의 품질을 확보할 수 있었습니다. 계획 단계에는 강력한 모델을, 실행 단계에는 저렴한 모델을 사용하는 하이브리드 전략의 유효성을 확인했습니다.
핵심 포인트
- 3-critic(코드, 테스트, E2E 리뷰) 파이프라인의 효과 입증
- Qwen3.6-27B 모델의 저장소 수준 추론 성능 확인
- 비평가 시스템이 저렴한 모델의 실수를 효과적으로 보완
- 계획(Frontier Model)과 실행(Qwen3.6)의 모델 분리 전략 제안
며칠 동안 GLM5.2와 함께 제 코딩 하네스(coding harness)를 통해 Qwen3.6-27B (8-bit)를 실행해 왔습니다. 이 하네스는 3개의 비평가(critics) — 코드 리뷰(code review), 테스트 리뷰(test review), Playwright e2e — 를 사용하며, 각 비평가는 출력을 수락하기 전에 새로운 컨텍스트(context)를 가집니다.
Qwen3.6은 27B 밀집 모델(dense model)로서 정말 제대로 된 성능을 보여줍니다. 벤치마크(Benchmarks)는 거짓말을 하지 않았습니다. 저장소 수준의 추론(repo-level reasoning)을 처리하며 괜찮은 코드를 생성합니다. 하지만 네, 프론티어 모델(frontier models)보다는 실수가 더 많습니다. 예상했던 바입니다.
제가 예상하지 못했던 점은 프론티어 모델을 위해 구축한 3-critic 파이프라인(pipeline)이 여기서도 매우 잘 들어맞는다는 것이었습니다. 비평가(Critics)들이 추가적인 실수들을 잡아냅니다. 하네스(Harness)는 흐름을 끊지 않으면서 재시도 오버헤드(retry overhead)를 처리합니다. 비평가들이 작업을 마친 후의 출력물은 최종 품질 측면에서 프론티어 모델의 실행 결과와 구별할 수 없을 정도로 충분히 좋습니다. 과정이 단지 더 노이즈가 많을 뿐입니다.
한 가지 다만, 이번 실행을 위한 계획은 Qwen3.6이 아니라 GLM5.2가 작성했습니다. 제 추측으로는 최적의 분할은 계획(planning)에는 프론티어 모델을, 실행(execution)에는 Qwen3.6을 사용하는 것입니다. 추론이 가장 중요한 강력한 모델과, 하네스가 오류를 잡아주는 대량 구현을 위한 저렴한 모델의 조합입니다.
submitted by /u/workout_JK
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기