Reddit요약2026. 06. 15. 09:21

DeepSWE에서 실행된 Qwen 3.6 27B

요약

DeepSWE 벤치마크에서 Qwen 3.6 27B 모델의 성능을 분석한 결과입니다. 이 모델은 Haiku 4.5 등을 상회하는 성능을 보였으며, 로컬 환경에서 가성비 좋은 SOTA 모델로서의 가능성을 보여주었습니다.

핵심 포인트

Qwen 3.6 27B는 벤치마크 20개 중 18위를 기록하며 우수한 성능 증명
VLLM 및 FP8 양자화, 262k 컨텍스트 윈도우를 활용한 추론 환경 구축
로컬 실행 가능한 모델 중 가성비 높은 SOTA 모델로 평가
최첨단 성능을 위해서는 대규모 모델이 필요하며 폐쇄형 소스 전환 추세 언급

개요:

그것은 2% (반올림하여 1.79%)를 기록했습니다.
Haiku 4.5 및 Minimax M2.7보다 높은 점수를 기록하며 20개 중 18위를 차지했습니다.
전체 벤치마크(benchmark) 수행에는 70시간이 소요되었습니다.
태스크(task)당 평균 시간은 32분입니다.
태스크당 평균 출력 토큰(output tokens)은 44k입니다.

관점:

3.6 Plus와 의심스러울 정도로 유사한 점수를 기록했으며, 이는 3.6 Plus의 아키텍처(architecture)가 27B와 어떻게 다른지 정말 궁금하게 만듭니다.
Qwen 3.6 27B는 커뮤니티에서 말이 너무 많다(verbose)는 나쁜 평판을 가지고 있습니다. 하지만 놀랍게도, 출력 토큰은 유사한 모델들과 비슷하거나 오히려 적었습니다.

방법론:

VLLM에서 BF16 KV 캐시(KV cache)를 사용하는 Qwen 3.6 27B FP8, 추론(reasoning) 활성화 및 262k 컨텍스트 윈도우(context window)를 사용했습니다.
모델은 RunPod의 1x RTX6000 pro Blackwell에서 실행되었습니다.
Modal 샌드박스(sandboxes)에서 mini-swe 에이전트 하네스(agent harness)로 실행되었습니다.
시간을 절약하기 위해 공식적인 4회 대신 태스크당 1회의 롤아웃(rollout)을 실행했기 때문에 이미지에 점수 범위가 표시되지 않습니다.
비용은 RunPod 시간당 요금 내에서 완료된 태스크를 기준으로 계산되었습니다.
전체 벤치마크 실행을 오케스트레이션(orchestrate)하고 모니터링하기 위해 Codex 5.5xhigh가 사용되었습니다.

출처
최고의 OS 모델인 Kimi-k2.6은 최첨단(leading edge) 성능과는 거리가 매우 멉니다. 대부분은 Kimi를 로컬(local)에서 실행조차 할 수 없으며, Qwen 3.6 27B 같은 모델이 로컬의 가성비 좋은 SOTA(State-of-the-Art)입니다. 최첨단 성능을 내기 위해서는 상당한 규모가 필요한 것으로 보입니다. 경쟁력을 갖추기 시작하는 모델들은 매우 빠르게 폐쇄형 소스(closed source)로 전환되는 경향이 있습니다. 로컬이 승리할 것 같지는 않습니다. 오히려 "로컬이 얼마나 처참하게 패배할 것인가"의 게임처럼 느껴집니다.
/u/SteppenAxolotl 제출 r/LocalLLaMA
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

DeepSWE에서 실행된 Qwen 3.6 27B

요약

핵심 포인트

댓글