Qwen3.7-Max: 에이전트 프런티어
요약
Qwen3.7-Max 출시를 앞두고 모델의 토큰 효율성, 로컬 구동 가능성, 그리고 오픈소스 모델의 발전 속도에 대한 기술적 논의를 다룹니다. 사용자는 이전 버전의 낮은 토큰 효율성과 로컬 실행 시의 속도 저하 문제를 지적하며, 새로운 모델이 에이전트로서 어떤 성능을 보여줄지 기대하고 있습니다.
핵심 포인트
- Qwen 시리즈의 토큰 효율성이 이전 모델(Step 3.5 Flash, DeepSeek 등) 대비 개선되었는지 여부가 핵심 관전 포인트임
- 로컬 환경(M2 MacBook Pro 등)에서 Qwen 3.6 모델 구동 시 매우 낮은 토큰 생성 속도로 인해 실사용에 어려움이 있음
- 오픈소스 모델이 최전선(Frontier) 수준의 성능에 근접하고 있다는 점이 인상적임
- Qwen Max와 같은 고성능 모델의 접근성을 높이기 위해 미국 하이퍼스케일러와의 제휴 필요성이 제기됨
이런 최고 수준 중국 모델들을 많이 써보면 가장 큰 질문은 토큰 효율이 어떠냐임
예를 들어 Step 3.5 Flash를 로컬에서 돌리면 전반적으로는 놀라울 만큼 유능하지만 토큰 효율이 너무 나빠서, 실제 소요 시간 기준으로는 대부분 다른 모델에 밀림. llama.cpp에 MTP 지원을 해킹해 넣어도 Spark에서 20tk/s가 30tk/s가 되는 정도였고, 세 헤드로 학습됐지만 MTP 2가 적정점이었음
DeepSeek 모델들과 Qwen 3.5 Plus도 비슷해서 Opus, 특히 GPT 5.5와 비교하면 같은 답을 내는 데 훨씬 더 많은 토큰을 씀
Qwen 3.7은 이 부분이 나아졌기를 정말 기대하고 있고, 빨리 써보고 싶음. 참고로 Spark에서 DeepSeek v4 Flash를 돌리는 건 정말 말이 안 되게 신기했고, antirez가 본다면 고맙다고 하고 싶음
“환각이 아닌 응답 비율”이 완벽하다는 건 그 자체로는 별 의미가 없을 수 있음. 이런 테스트에도 사람이 만든 환각이 들어갈 수 있기 때문임
결국 모델이 테스트를 만든 집단의, 참일 수도 거짓일 수도 있는 믿음과 얼마나 맞느냐를 뜻함
정말 대단하고 진전이 인상적임. 학습에 자체 칩을 얼마나 썼는지도 궁금함
어느 수준에서 능력의 상태 전이가 일어나는지 궁금함. 5%인지, 1%인지
어젯밤 주간 Claude Code 한도에 위험할 정도로 가까워져서 Claude에게 llama.cpp와 OpenCode로 Qwen3.6을 설정하게 했음. 솔직히 Claude Code의 훌륭한 무료 대안이고, 작고 덜 복잡한 작업 상당수에는 충분히 좋음
이 새 버전도 써보는 게 기대됨. 오픈소스 모델이 최전선에 이렇게 가까워졌다는 점이 매우 인상적임
어떤 머신과 모델에서 돌리는지 궁금함
지난주 M2 MacBook Pro 32GB에서 llama.cpp와 LM Studio로 qwen3.6-27b Q6_k GUFF를 시도했는데 둘 다 초당 1토큰도 겨우 나왔음
어느 정도 속도를 기대해야 하는지 모르겠음. 2년 전 llama.cpp로 Llama 3 34b 계열 모델을 돌렸을 때는 초당 몇 토큰은 나왔던 기억이 있어서, 설정을 완전히 잘못한 건지 기대치가 비현실적인 건지 헷갈림
혹시 qwen 3.x가 어떤 이유로 더 느린 건가 싶기도 함. 전문가 혼합(MoE) 구조인지도 궁금함. 즉각 반응을 기대하는 건 아니지만 지금 속도는 실제로 쓰기 어렵다
이 새 버전은 로컬에서 돌릴 수 있는 물건이 아님. 클라우드 모델이고, 가중치를 공개하더라도 아마 너무 클 가능성이 큼
정확히 어떤 모델을 쓰는지 궁금함. 어떤 매개변수와 양자화인지, 하드웨어는 무엇인지도 궁금함
context-mode나 동적 컨텍스트 가지치기 같은 성능 최적화용 MCP나 다른 도구를 쓰는지도 알고 싶음. 로컬 모델은 꽤 써봤지만 opencode는 막 시작했고, 아직 결과가 좋지는 않지만 단순한 작업에서는 꼭 잘 됐으면 함. 새로 설치한 opencode가 유휴 상태에서도 iTerm CPU를 100% 쓰는 문제도 있음
Qwen Max는 보통 비공개 모델이라 아쉬움
Qwen 3.6이 Sonnet 4.6과 비교해 어떤 느낌인지 궁금함. 현실적으로 많이 쓰는 건 그쪽이기 때문임
코드 관련 작업을 전부 Opus 4.7로 처리하면 Sonnet을 쓸 수 있을 때보다 월 청구액이 10~20배 높아질 것임
독점 모델을 더 많이 내기 시작하는 만큼, 이런 모델을 미국 소재 사업자를 통해 쓸 수 있도록 미국 주요 하이퍼스케일러 중 하나와 제휴했으면 정말 좋겠음
왜 그게 합리적이지 않거나 그들의 이익에 맞지 않을 수 있는지는 충분히 이해함. 미국도 반대로 그런 일을 전혀 자동으로 해주지 않는다는 것도 맞음. 그래도 실제 프로덕션 작업부하에서 제대로 시험해볼 수 있으면 좋겠음
미국 하이퍼스케일러들이 반대로도 똑같이 하지 않는 한, 지금 상태가 유지됐으면 함. 모두가 공유에 만족한다면 양방향으로 공유가 이뤄져야 하고, 그렇지 않다면 미국 하이퍼스케일러들은 지금까지처럼 스스로 고립된 채 있으면 됨
Qwen3.6-Plus는 Fireworks에서 쓸 수 있음
Alibaba Cloud는 멕시코 데이터센터를 갖고 있음
fireworks가 Qwen 3.6 Plus를 호스팅하니, Qwen 3.7 Plus도 가져올 수 있을 것 같음
ChatLLM이 QWEN을 지원하는데, 이걸 미국 기준으로 안전하다고 볼 수 있는지 궁금함
수치 자체는 아주 좋음. 그런데 이런 글에서 왜 최신 경쟁 모델과 비교하지 않는지는 여전히 이해가 안 됨. 사람들이 못 알아챌 리도 없는데
경쟁사보다 나쁘게 보이는 수치를 내놓는 곳은 없음
OpenAI와 Anthropic도 평가 데이터셋을 서로 다르게 쓰는 경우가 많아서 마찬가지임
마이너 버전 상승 범위라면 용서할 만하다고 봄. 참고로 요즘 대규모 언어 모델에서는 이유는 모르겠지만 x.5가 사실상 메이저 버전 상승처럼 쓰임
대규모 언어 모델이라도 이런 글이 그냥 뚝 떨어지는 건 아님. 자기 모델의 목표 벤치마크 세트가 있다면, 나란히 비교 가능한 모델 세트를 계속 유지하는 것 자체가 별도의 관리 부담임
아마도 자기들이 최신 최고 수준에서 N개월 정도 뒤처져 있다고 보이게 하려는 논리일 것 같음
현실적으로는 독자들이 세부사항을 눈치채지 않기를 바라는 것이라 봄
Qwen 모델은 오픈 가중치 기준으로는 훌륭하지만, 이전 릴리스들은 실제 사용에서 벤치마크만큼 잘 나오지 않았음. 벤치마크 수치 최적화가 효과 있다는 걸 아니까 거기에 맞추는 것임
기대치를 설정하는 과정의 일부라고 봄. 특정 모델로 증류나 평가 하네스를 구성했다는 사정도 있을 수 있음
4.7과 비교 가능하다고 말하면, 평가 기준 모델이 머릿속에 그렇게 고정됨
솔직히 초기 버전 Opus-4.6은 지금 4.7이라고 제공되는 것보다 훨씬 나았음. 그 수준으로만 동작한다면 완전히 갈아탈 의향이 있음
이것도 일주일 뒤에 Hugging Face 릴리스가 나오는 유형인지 궁금함. 아니면 독점으로 유지된다는 걸 확실히 아는 건가
틀렸으면 정정해주면 좋겠지만, Max 모델은 보통 공개되지 않는 것으로 알고 있음
Qwen의 오픈 가중치 릴리스가 더 나오길 기대함. 특히 122B와 397B가 기대됨
맞음. 60~150B 정도 범위는 현재 프로슈머 하드웨어에서 정말 좋은 지점이라, 120b-a14b 같은 모델이 나오면 좋겠음
개인적으로는 9B처럼 더 낮게 양자화된 모델이 더 기대됨
qwen3.7 9b와 72b가 더 기대됨. 보통 크기 대비 성능이 아주 좋음
아직 qwem image-edit 2.0 오픈 가중치를 기다리고 있음
아프다. 이제 막 이런 걸 만져보기 시작했는데, 내 환경은 12GB 3060과 RAM 32GB가 달린 평범한 게이밍 데스크톱임
Qwen 9B만 넘어가도 머신이 완전히 멈출 위험이 있음
벤치마크에 Opus 4.7, GPT5.5, Gemini Flash 3.5가 없음
pi agent를 쓰고 있고 호스팅된 Qwen 모델을 써보고 싶음. 좋은 선택지가 무엇인지 궁금함
공식 제공자에는 Alibaba가 없음. OpenRouter 같은 서비스가 충분히 빠른지도 궁금함. 참고로 DeepSeek v4는 이런 프록시 서비스에서 심하게 제한됨
pi + openrouter에서 qwen3.6-max-preview를 많이 쓰고 있음. 아직 안정성이나 성능 문제는 겪지 않았음
로컬 대규모 언어 모델을 막 만져보기 시작했는데 솔직히 꽤 인상적임. NVIDIA A1000(6GB VRAM)과 RAM 96GB가 달린 워크스테이션 노트북을 쓰고 있음
GPU는 거의 쓰지 않았고, 가끔 CAD 설계나 OpenCV 기반 머신러닝 정도에만 썼음. llama3:latest를 돌려보니 꽤 빠르게 실행됐고, Qwen이 내 시스템에서 어떻게 돌지 궁금함
가장 신뢰하는 패턴은 외부 동작마다 작은 검증 산출물을 추가하는 것임. 에이전트는 추론 깊이가 부족해서보다, 조용한 상태 드리프트 때문에 더 빨리 실패하는 경우가 많음
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기