Qwen 3.7이 이미 3.5의 미세 조정(Fine-tuned) 버전으로 출시된 것일 가능성이 있을까요?
요약
Qwen 3.5의 미세 조정 버전으로 추정되는 최적화된 오픈 모델들의 뛰어난 코딩 성능과 추론 속도를 분석합니다. 다양한 GPU 환경에서 테스트한 결과, 특정 코딩 작업에서 매우 높은 효율성을 보여줍니다.
핵심 포인트
- Qwen 3.5 기반 최적화 모델의 코딩 성능 확인
- 35B 모델 기준 RTX 6000에서 초당 230 토큰 기록
- 9B 모델의 웹 페이지 생성 코딩 능력 우수
- 오픈 모델 프로젝트의 중요성 강조
이 글은 벤치마크(Benchmarks)에 관한 글이 아니라, 우리 커뮤니티를 위한 좋은 소식을 전하기 위한 것입니다. (모더레이터 참고 사항: 이 글은 벤치마크에 관한 것이 아니라, 새로운 스튜디오에서 나온 최적화된 오픈 모델(Open models)에 대해 이야기하고 있습니다).
공식적인 Qwen 3.7 출시를 기다리는 동안, 우리는 3.5 모델의 두 가지 버전이 매우 뛰어난 성능을 보이는 것을 목격하고 있습니다. 단순히 발표된 결과만을 보고 말씀드리는 것이 아닙니다. 제가 직접 모델들을 테스트해 보았습니다. 어제는 35B 버전을 독점적으로 사용했고, 오늘은—Bartowski(전설적인 인물!) 덕분에—코딩 작업(opencode/claudecode/kilocode)에서 397B 버전(q_k_s)을 테스트하기 시작했습니다.
저의 특정 사용 사례(React + Vite + Python)에 대한 결과는 놀라웠습니다. 35B 모델은 RTX 6000에서 초당 230 토큰(tokens/sec)을 기록하며 엄청난 프리필(Prefill) 속도를 자랑합니다(RTX 5090 32GB에서도 유사한 결과가 나올 것입니다). Vulkan을 사용하는 W7800 48GB 카드에서는 별도의 최적화 없이도 초당 103 토큰을 얻고 있습니다.
언제나 그렇듯 처음에는 회의적이었습니다. 수치를 부풀린 것은 아닐까 하고 말이죠. 하지만 https://artificialanalysis.ai/models/nex-n2-pro?intelligence=coding-index 에서 Nex-N2-pro의 분석을 보고 나서야 그 성능이 진짜라는 확신이 들었습니다.
또한 RTX 5070 Ti 16GB에서 9B 버전도 테스트했습니다. 모델의 크기를 고려할 때, 웹 페이지를 생성하는 코딩 능력을 활용한 결과는 매우 훌륭했습니다.
여러분도 이 모델들을 사용해 보고 계신지, 실제 인상은 어떤지 알고 싶습니다. 최첨단(SOTA) 모델에 대한 접근성이 유료 사용자들에게조차 개방되기보다는 오히려 닫히고 있는 세상에서, 점점 더 흥미로워지는 이러한 프로젝트들을 지원하는 것은 매우 중요합니다.
submitted by /u/LegacyRemaster
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기