Reddit요약2026. 05. 06. 01:01

로컬 Qwen 모델을 Codex 검증자 및 코-에이전트로 벤치마킹하기

요약

본 기사는 로컬 Qwen 모델을 기존의 코드 에이전트(Codex)와 협업하는 '검증자' 또는 '코-에이전트'로 활용한 실제 워크플로우 경험과 평가 결과를 공유합니다. 저자는 Qwen이 Codex를 대체하기보다는, 과다 설계나 누락된 지시사항 점검 등 '제2의 눈' 역할을 수행하며 개발 프로세스의 품질을 높이는 데 매우 유용함을 발견했습니다. 이를 위해 합성 데이터에 의존하지 않고 실제 사용 사례 중심의 재현 가능한 평가 스위트를 구축했으며, llama.cpp를 통해 다양한 Qwen3.6 27B GGUF 프로필(예: bartowski-128k-f16, unsloth-128k-q8)을 테스트했습니다. 주요 발견으로는 컨텍스트 크기가 양자화 방식보다 이 워크플로우에서 더 중요했으며, Qwen이 UI 디자인 영역에서도 주도권을 잡는 등 특정 역할에 특화된 강점을 보인다는 점을 강조합니다.

핵심 포인트

로컬 LLM(Qwen)은 코드 에이전트(Codex)를 대체하기보다 '검증자' 또는 '코-에이전트'로서 협업할 때 가장 큰 가치를 발휘한다.
LLM의 유용성을 평가하기 위해 실제 사용 사례 중심의 재현 가능한 평가 스위트를 구축하는 것이 중요하며, 단순한 벤치마크는 한계가 있다.
테스트 결과, 이 워크플로우에서는 컨텍스트 크기(128k)가 양자화 방식(f16 vs q8)보다 성능에 더 큰 영향을 미쳤다.
Qwen은 특히 과다 설계 점검, 누락된 지시사항 발견 등 '제2의 눈' 역할과 UI 디자인 영역에서 뛰어난 능력을 보여주었다.

저는 코드 작성 작업에 로컬 Qwen 모델을 Codex 옆에서 실행해 왔으며, 예상보다 더 유용하다고 생각했습니다. 이는 결코 Codex 를 대체할 모델은 아닐 것입니다. 오히려 저보다 훨씬 뛰어난 제 2 의 눈과 같은 존재라고 생각합니다.

워크플로우 개요:

Codex 가 메인 리포지토리오 작업을 수행합니다.
로컬 Qwen 이 계획을 도전합니다.
Qwen 은 과다 설계, 누락된 중요한 지시사항, UI/디자인 문제, 잘못된 가정, 그리고 긴 컨텍스트 미흡 사항을 점검합니다.
저는 각 상호작용을 검토하고 다음 단계 전에 테스트 및 검증합니다. 이는 "거대한 프롬프트를 보내고 기도와 기도를 부탁한다"는 접근 방식이 아닙니다. 저는 작업이 작동하고 확장되어야 합니다.

이 설정은 충분히 유용하여 로컬 모델 프로필을 이 역할에 대해 더 구체적으로 테스트할 수 있는 방법을 원했고, 단순히 합성 데이터를 의존하지 않고 싶었습니다.

따라서 저는 해당 사용 사례를 중심으로 작은 재현 가능한 평가スイ트를 구축했습니다. 저는 단순한 벤치마크와 포스트만 읽는 것에 지쳤기 때문입니다. 이는 저의 사용 사례와 맞지 않았습니다.

저는 llama.cpp 를 통해 몇 가지 Qwen3.6 27B GGUF 프로필을 테스트했습니다. Bartowski 와 Unsloth 변형, 다른 컨텍스트 크기 및 q8/f16 KV 캐시 포함.

https://preview.redd.it/19f3cdz207zg1.png?width=1600&format=png&auto=webp&s=0d467f97c98b23fbfe2a62401d471ed43db03452

내 로컬 실행의 주요 발견:

가장 좋은 128k 프로필은スイ트에서 동점했습니다: bartowski-128k-f16, bartowski-128k-q8, 그리고 unsloth-128k-q8.
q8 KV 는 이 특정スイ트에서 측정된 정확도 손상을 보이지 않았습니다. 이는 이것이 귀하의 사용 사례에서도 동일하게 적용될 것이라고 말하지는 않습니다.
컨텍스트 크기는 f16-vs-q8 KV 보다 이 워크플로우에 더 중요했습니다. 오픈코드 직접 사용이든 마찬가지였습니다.
65k 프로필은スイ트에서 >65k 컨텍스트를 요청할 때까지 괜찮았지만, 그 이후에는 매우 강하게 실패했습니다.
unsloth-128k-f16 은 로드되었으나 긴 컨텍스트 사례에서 로컬 메모리/처리량 압력을 경험했으며, 이는 더 큰 크기 때문에 5090 을 트리거합니다.

이는 보편적인 벤치마크가 아니며 기존任何东西을 대체하려는 것이 아닙니다. 이는 저의 워크플로우, 저의 로컬 설정, 그리고 사용 사례 특화スイ트입니다. 저는 "최고 Qwen 양자화"나 이와 같은 것을 주장하지 않습니다. 제가 제시하고자 하는 것은 다른 종류의 평가입니다: 만약 로컬 모델이 프론티어 코드 에이전트, 즉 저의 경우 Codex 와 함께 실제 작업에서 유용하다면. 저의 사용에 있어서는 절대적으로 그렇습니다. Qwen 은 Codex 가 침묵적인 우회 없이 유지하는 데 매우 뛰어납니다. 문제를 완화하고 완료 속도를 높이며 장애물을 회피하기 위해 하드 코딩합니다. Qwen 은 이를 통제합니다. 또한 Qwen 은 UI 에서 훨씬 더 뛰어납니다. 따라서 UI 가 관여되면 역할이 반전되고 Qwen 이 디자인에서 주도권을 잡습니다. 저는 검토하고 Codex 는 구현합니다.

프로젝트 페이지:
https://robert896r1.github.io/qwen-realworld-accuracy-evals/

리포지토리오:
https://github.com/robert896r1/qwen-realworld-accuracy-evals

저는 로컬 모델을 코드 컴패니언, 리뷰어 또는 사이드카 에이전트로 사용하는 사람들이 특히 피드백에 관심이 있습니다.

또한 추가해야 한다고 생각하는 실제 세계 테스트 케이스에 대한 관심도 있습니다. 저는 프롬프트 벤치밍보다 유용한 실패에 더 관심이 있습니다: 누락된 지시사항, 잘못된 도전 행동, 과다 설계, UI 판단, 긴 컨텍스트 미흡 등.

AI 자동 생성 콘텐츠

원문 바로가기

로컬 Qwen 모델을 Codex 검증자 및 코-에이전트로 벤치마킹하기

요약

핵심 포인트

댓글