Qwen 3.6 35B A3B의 기대감이 현실이네요!!!
요약
작성자는 전문적인 학술 연구 코드와 논문을 LLM에 입력하여 이해도를 테스트했으며, 최근 출시된 여러 오픈 웨이트 모델들이 과거의 작은 로컬 모델들보다 훨씬 뛰어난 성능을 보여 놀라움을 표했습니다. 특히 Qwen 3.6 35B A3B를 포함한 최신 모델들은 긴 컨텍스트 처리 능력을 갖추어 복잡한 코드와 문헌 간의 매핑 분석이 가능해졌습니다. 작성자는 이들 로컬 모델들이 단일 거대 상용 모델보다 더 유능할 수 있다는 자신감을 드러내며, 관련 실험 결과를 공유했습니다.
핵심 포인트
- 최신 오픈 웨이트 LLM들은 긴 컨텍스트 처리(gated delta net, hybrid Mamba2 등) 능력을 갖추어 복잡한 학술 코드를 이해하는 수준이 크게 향상되었다.
- Qwen 3.6 35B A3B와 같은 모델들이 테스트된 여러 로컬 모델들 중 가장 뛰어난 성능을 보였다.
- 작성자는 특정 상황(학술 연구 코드 분석)에서 최신 로컬 오픈 웨이트 모델들이 상용 거대 모델과 동등하거나 더 나은 지적 능력을 가질 수 있다고 주장한다.
- 모델의 성능 테스트는 단순히 크기뿐 아니라 긴 컨텍스트를 얼마나 효율적으로 처리하는지에 달려 있음을 시사한다.
제가 작은 로컬 LLM의 지능을 테스트하는 개인적인 방법은 모델이 제가 학술 연구를 위해 작성한 코드를 이해할 수 있는지 확인하는 것입니다. 제 연구는 상당히 전문적인 주제에 관한 것이라, 그런 내용이 LLM의 학습 데이터셋에 실질적으로 존재한다고는 의심합니다. 몇 달 전만 해도 작은 로컬 모델들이 제 코드를 이해하는 능력은 기껏해야 미미한 수준이었고, Devstral Small 2가 최고 성능을 보였습니다. 하지만 이제는 여러 작은 오픈 웨이트 모델들이 상당히 긴 컨텍스트를 수용하는 방법(gated delta net, hybrid Mamba2, sliding window attention)을 갖게 되어 극도로 똑똑해졌습니다. 저는 이제 모델에 전체 학술 논문과 함께 관련 코드를 제공하고, 그 논문을 사용하여 코드가 무엇을 하는지 분석하도록 요청할 수 있습니다.
저는 최근 며칠 동안 다음 모델들로 실험을 했습니다:
- Qwen 3.6 35B A3B
- Qwen 3.6 27B
- Gemma 4 26B A4B
- Nemotron 3 Nano
모두 이 모델들은 몇 달 전 어떤 작은 로컬 모델이 할 수 있었던 것보다 훨씬 더 잘 제 코드를 이해할 수 있었습니다. 저는 최근 단일 16GB 그래픽 카드에서 두 개의 카드로 업그레이드했기 때문에 Devstral Small 2를 시도해 보았지만, 아쉽게도 32GB의 RAM에 긴 컨텍스트 전체를 담을 수가 없었습니다. Mistral이 gated delta net을 갖춘 새로운 작은 모델을 출시한다면 좋겠습니다. 그 모델이 왕좌를 차지할 수 있을 것 같습니다.
제가 로컬 모델들에게 제 코드가 대응하는 연구 논문의 어떤 부분과 매핑되는지 설명하도록 요청한 상세한 결과는 여기를 참고해주세요입니다.
요약하자면: 위에 나열된 네 가지 모델 모두 믿을 수 없을 만큼 뛰어난 로컬 모델이며, 그중 Qwen 3.6 35B A3B가 가장 뛰어나 보입니다. 또한 저는 이 네 가지 모델 중 어떤 모델을 가진 지적인 인간이 Opus 4.7 같은 단일 모델보다 더 유능할 것이라고 생각합니다 (상세 결과 참고).
여러분의 생각을 알려주세요!
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기