본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 03. 16:25

Qwen3.6-27B vs Coder-Next

요약

본 기사는 Qwen3.6-27B와 Coder-Next 두 대규모 언어 모델을 실제 복잡한 작업 환경에서 비교 분석한 결과를 담고 있습니다. 테스트 결과, 두 모델은 전반적인 성능이 매우 유사하여 '상황에 따라 다르다'는 결론을 내렸습니다. Qwen3.6-27B는 특히 'thinking' 기능을 비활성화했을 때 일관된 성공률을 보였으며, Coder-Next는 특정 작업(예: 제한된 비즈니스 메모, 문서 합성)에서 27B보다 높은 효율성을 보여주었습니다. 결론적으로, 어떤 모델이 더 우수하다기보다는 수행하려는 '작업의 성격'에 따라 최적의 선택이 달라집니다.

핵심 포인트

  • 두 모델(Qwen3.6-27B vs Coder-Next)은 전반적인 성능과 통계적 유의성 면에서 매우 유사하여 우열을 가리기 어렵다.
  • Qwen3.6-27B는 'thinking' 기능을 비활성화했을 때 가장 일관되고 안정적인 작업 수행 능력을 보였다.
  • Coder-Next는 제한된 범위의 전문적인 업무(예: 문서 합성, 비즈니스 메모)에서 27B보다 높은 효율성을 입증했다.
  • 모델 선택은 절대적이지 않으며, 수행하려는 특정 '작업 시나리오'와 요구되는 비용 효율성에 따라 달라져야 한다.

두 모델 중哪一个이 명확히 더 나은지 확인하기 위해 내 두 개의 RTX PRO 6000 Blackwell GPU 에서 약 20 시간의 병렬 계산을 소모했습니다. 인생의 많은 것들처럼, 수많은 토큰과 kWh 를 소비한 후에도 답은 "상황에 따라 다르다"였습니다.

이 모델들은 전체적으로 서로 매우 잘 맞습니다. 광범위한 테스트와 시나리오에서 전반적인 점수가 비슷하며, 서로 다른 것을 맞추고 놓치며, 서로 다른 방식으로 실패하고 성공합니다. N=10 에서 실행한 4 개 셀 (cells) 에서는 Coder-Next 는 25/40 개를 통과했고, 27B-thinking 은 30/40 개를 통과했습니다. Wilson 신뢰구간을 고려할 때 통계적으로 동점입니다.

그 자체로 보면 그럴듯합니다. 27B 는 고도화된 밀집형 모델로 'thinking' 기능이 강력합니다. Coder-Next 는 약 3 배의 파라미터를 보유하고 있지만, 작업 수행 시 한 번에 3B 만 활성화합니다. 무엇을 하려는지에 따라 어느 것이든 올바른 선택이 될 수 있습니다.

흥미롭게도, 'thinking' 기능을 비활성화한 27B 가 작업 통과율 (shipper) 에서 가장 일관된 성능을 보였습니다. N=10 에서 전체 12 개 셀 그리드에서 95.8% 의 성공률을 기록했습니다 (Wilson 95% \[90.5%, 98.2%\]). 27B-thinking 과 동일한 모델 가중치 ( ext{weights}) 를 사용하며, 단순히 `--no-think` 플래그만 추가한 것입니다. 두 모델 모두 통과한 셀에 대한 수동 평가 (hand-graded read) 결과, 실체적인 출력 (substantive output) 은 유지되지만, 차이점은 추론 문장의 양 (verbosity of reasoning prose) 에 있을 뿐입니다. 'thinking-trace as loop substrate' 메커니즘은 실제로 작동하는 것으로 확인되었습니다. 문서 합성 (doc-synthesis) 과 관련된 문서 트리밍 루프는 no-think 모드에서 절반으로 줄어듭니다 (4/10 → 2/10).

3.6-35B-A3B 는 작업 수행에 있어 너무 자주 실패하여 다른 두 모델과 비교할 가치가 없어 보였습니다. 폴더는 실패 모드의 증거로 보관했습니다.

몇 일 동안 이 모델들에게 다양한 복잡한 작업을 던졌으며, 그 과정에서 내 두 개의 GPU 를 매우 따뜻하고 바쁘게 만들었습니다. 전통적인 벤치마크가 조작되고 있다고 느꼈기 때문에 (더 좋은 표현이 없다면) 이 작업에 착수했습니다. 따라서 이 두 모델을 단순히 실지로 테스트하여 견디고 보고 싶었습니다.

그들에게 성공할 수 있는 작업을 부여하거나, 실패할 운명인 작업을 부여하고, 그들이 어떻게 승리하고 실패하는지, 그리고 그 모습이 무엇인지 연구했습니다. 가장 극단적인 단일 결과: Coder-Next 는 라이브 시장 조사 (live market-research) 작업에서 0/10 을 기록한 반면, 27B 는 8/10 을 기록했습니다 (Wilson 95% \[0%, 27.8%\] 의 Coder-Next 붕괴는 재현 가능). 역으로: Coder-Next 는 제한된 비즈니스 메모 (bounded business-memo) 와 문서 합성 (doc-synthesis) 작업에서 10/10 을 통과했으며, 이는 27B 변형보다 비용 효율이 60~100 배 낮았습니다. 동일한 모델이지만, '잘하는 것'의 모양은 매우 다릅니다.

엄청난 양의 데이터가 있으며, 이를 쉽게 분류할 수 있도록 노력했습니다. 현재는 이 두 모델을 철저히 비교하는 데 집중하고 있습니다.

어쨌든, 저는 지금 졸립니다. 의견이나 질문이 있으시면 말씀해 주세요. 리포지토리는 아래에 있습니다. 제가 잠에서 깨어나면 더 자세히 설명하겠습니다. lol

https://github.com/Light-Heart-Labs/MMBT-Messy-Model-Bench-Tests

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
11

댓글

0