Insights

주장: Qwen 3.6 27b 가 Sonnet 4.6 보다 기능 기획에서 우수함

본 기사는 Qwen 3.6 27b가 Sonnet 4.6(Claude)보다 기능 기획 및 코드 검토 작업에서 더 우수할 수 있다는 주장을 제시합니다. 작성자는 동일한 'plan review' 작업을 통해, Qwen이 기존 코드를 깊이 있게 분석하고 잠재적 문제를 많이 포착하며 시스템 통합 측면에서 뛰어난 이해도를 보였다고 주장합니다. 반면, Claude는 기능의 통합 방식에 대한 이해도가 부족하다는 점을 지적합니다.

llmqwen-3.6sonnet-4.6

4월 27일4

deepseekdeepep-v2tilekernels

DeepSeek 에서 DeepEP V2 와 TileKernels 출시

딥시크(DeepSeek)가 새로운 기술 라이브러리인 DeepEP V2와 TileKernels를 출시했습니다. DeepEP V2는 효율적인 모델 학습 및 추론을 위한 기능을 제공하며, TileKernels는 고성능 컴퓨팅 환경에서 커널 최적화에 초점을 맞춘 도구입니다. 이 두 가지 출시는 딥러닝 워크로드의 성능과 효율성을 크게 향상시키는 것을 목표로 합니다.

4월 27일6

deepseekllm-efficiencyintelligence-density

DeepSeek V4 Pro 의 지능 밀도 감소

DeepSeek-V3.2는 Gemini 3.0-Pro와 같은 모델에 비해 토큰 효율성 개선이 필요하다는 지적이 있었으나, 최신 버전인 DeepSeek V4 Pro에서는 상황이 더욱 악화되었다. 특히 비추상 모드에서도 이전 버전에 비해 훨씬 많은 토큰을 사용하며, 모델 크기가 약 2.5배 증가했음에도 불구하고 '지능 밀도(intelligence density)'가 개선되지 않고 오히려 감소한 것으로 분석된다. 이로 인해 유사 성능의 경쟁 모델 대비 처리 속도와 효율성 면에서 큰 격차가 발생하고 있다.

DeepSeek을 갖게 되어 다행이다

최근 일부 주요 AI 기업들이 베이스 모델 공개 지연, 오픈 가중치 배포 축소, 상세 연구 논문 발표 중단 등의 경향을 보이면서 업계의 우려를 낳고 있습니다. 반면 DeepSeek은 매달 혁신적인 연구 결과를 발표하고, 베이스 모델과 오픈 가중치를 신속하게 공개하며, 상세한 런칭 논문을 통해 투명성을 유지하는 등 선도적인 모습을 보이고 있습니다.

open-weightsllmdeepseek

DeepSeek v4 Flash, 코드 변경 평가에서 압도적 성능 입증

DeepSeek v4 Flash 모델의 코드 변경 평가 테스트 결과를 공개했습니다. 다중 도구 호출과 복잡한 네이티브 도구 정의에서도 오류 없이 100 회 이상의 도구 호출을 성공적으로 처리했으며, 컨텍스트 관리와 사고 과정 (thinking traces) 이 탁월함을 보였습니다. 단점으로는 토큰 생성 속도가 느리고 계획 수립에 수 분 이상 소요된다는 점입니다. 향후 더 많은 모델 용량이 2026 년 2 분기에 출시될 것으로 기대됩니다.

deepseekllmcoding-agents

DeepSeek V4, Flash 및 Non-Flash 모델이 Hugging Face에 출시

AI 기업 DeepSeek AI 가 최신 대규모 언어 모델인 DeepSeek-V4 를 공식적으로 발표했습니다. 이번 업데이트는 'Flash Attention' 기술과 이를 사용하지 않는 일반 버전('Non-Flash') 두 가지 변종을 포함합니다. 사용자는 Hugging Face 에서 해당 모델을 즉시 다운로드하거나 로컬 환경에 배포할 수 있습니다.

deepseekllamahuggingface

4월 27일6

rtx-6000local-llamagpu-build

RTX 6000 듀얼 빌드, CPU 쿨러 극한 테스트 결과

1600W 타이타늄 전원공급장치(Power Supply Unit) 를 탑재한 2x RTX 6000 GPU 빌드가 확장된 벤치마크 테스트를 견뎠습니다. CPU 가 350W 풀로드와 GPU 의 배기 열을 견디며 95°C 에서 안정적으로 작동했습니다. GPU 는 전원 한도인 535W 로 제한되었으나, 시스템의 실제 병목은 열이 아닌 전력 공급임을 확인했습니다.

4월 27일3

local-llamaqwen3.6rtx-5090

RTX 5090 에서 Qwen3.6-27B, 218k 컨텍스트로 ~80 tps 달성

Qwen3.6-27B 모델이 출시된 지 며칠 만에 HuggingFace에 NVFP4 및 MTP 기능이 포함된 버전이 공개되었습니다. 이전 Qwen3.5-27B 데모에서 사용했던 동일한 레시피를 적용하면, 최신 vLLM 0.19 빌드 (vLLM 0.19.1rc1) 를 통해 단일 RTX 5090 GPU 에서 218k 토큰 컨텍스트 윈도우에서도 약 80 토크/초 (tps) 의 속도를 달성할 수 있습니다.

4월 26일5

Qwen3.6-35B-A3B 의 맥락 오인식: 'Ghost in the Shell' 순간

사용자가 Qwen3.6-35B-A3B 모델을 로컬에서 실행 중일 때, 실제 맥락이 가득 찼을 시점에 모델이 스스로 '맥락이 부족함'을 환각(hallucination)하여 중단하거나 오류를 발생시킨 사례입니다. 이는 최신 대형 언어 모델(LLM) 의 내부 상태 관리나 토큰 처리 로직에서 발생할 수 있는 흥미로운 버그나 한계를 보여줍니다.

llmqwenlocal-llama

4월 26일4

Qwen: 왜 27B 밀집 모델이 397B MoE 를 능가하는가

사용자가 Qwen의 27B 밀집(Dense) 모델이 397B 모노리틱(MoE) 모델을 압도하는 이유에 대해 의문을 제기함. 일반적으로 MoE 가 더 많은 파라미터를 가진다는 전제와 달리, Qwen 은 밀집 구조에서 뛰어난 성능을 발휘하여 작은 모델로도 큰 모델을 능가함을 보여줌.

llamaqwenmoa

4월 25일3

llamaanthropicopen-weights

Anthropic의 Ling-2.6-1T, 오픈 가중치 공개 확정

Anthropic이 개발한 초대규모 언어 모델인 Ling-2.6-1T가 오픈 가중치 (Open Weights) 로 공개될 것이 확인되었습니다. 이전 Ling 2 모델의 성공적인 전략을 이어받아, 총 파라미터 수는 1 조 개에 달하지만 실제 학습된 활성 파라미터는 500 억 개로 제한하여 효율성을 극대화했습니다. 이번에는 이를 한 단계 더 발전시킨 플래시 (Flash) 모델도 공개되며, 이 모델은 총 1040 억 개의 파라미터를 가지면서도 핵심적인 70 억 개만 활성화시켜 추론 비용을 획기적으로 낮추고 성능을 유지합니다. 이는 초대규모 모델의 접근성을 높이고, 연구자와 개발자들이 고품질의 오픈소스 모델을 활용할 수 있는 중요한 이정표가 될 것입니다.

4월 25일3

RTX 3090 한 대로 Qwen3.6-27B, 85 TPS 및 125K 컨텍스트 구현

Wasif Basharat 개발자가 단일 RTX 3090 GPU로 Qwen3.6-27B 모델을 85 토크/초 (TPS) 의 속도와 125,000 토큰 컨텍스트 윈도우, 그리고 비전 처리 기능을 성공적으로 실행하는 스택을 완성했습니다. 해당 패치가 GitHub에 추가되었으며, 관련 링크는 블로그 게시글에서 업데이트되었습니다. 저비용 하드웨어 환경에서도 고성능 LLM 추론이 가능함을 보여주는 사례입니다.

llmqwen3.6rtx-3090

4월 25일3

딥시크 V4, 멀티모달리티 미포함…하지만 기다려본다

딥시크 V4 프로 모델의 기술 보고서에 따르면 현재 버전은 텍스트 기반이며 멀티모달리티(이미지/비디오 처리) 기능이 아직 포함되지 않았습니다. 하지만 개발자들은 이 기능의 추가를 기대하며 다음 릴리스까지 기다릴 의사를 밝혔습니다.

deepseekllamamultimodal

4월 25일2

DeepSeek-v4, 384K 출력 지원으로 웹 개발 생산성 극대화

최근 DeepSeek-v4 모델이 최대 384K 토큰의 거대한 출력을 지원한다는 소식이 화제입니다. 이는 단순히 긴 글을 생성하는 것을 넘어, 단일 HTML 파일과 같은 복잡하고 구조적인 결과물을 한 번에 완성할 수 있음을 의미합니다. 이 기능을 활용하면 웹 페이지 전체를 프롬프트와 함께 요청하여 100KB 크기의 완전한 싱글-페이지 애플리케이션(SPA)을 즉시 얻어낼 수 있어, 개발 과정의 효율성과 생산성이 혁신적으로 높아질 것으로 기대됩니다.

llmdeepseek-v4webdev

4월 24일2

Qwen의 성능 급상승에 따른 로컬 LLM 환경 구축 고려 사항

최근 Qwen 모델군의 눈부신 발전 속도를 목격하며, 고성능 로컬 AI 구동 환경 구축 필요성이 대두되고 있습니다. 현재 27B급 모델들이 GPT-4o와 견줄 만한 성능을 보여주면서, 클라우드 의존성을 줄이고 개인 워크스테이션에서 강력한 LLM 실험을 진행할 시점이라는 분석입니다. M1 Pro 사용자라도 향후 고성능 GPU(예: 128GB 메모리 Max 칩)로의 업그레이드를 진지하게 고려해야 할 만큼, 로컬 AI 환경이 빠르게 전문화되고 있습니다.

llmlocal-inferenceqwen

4월 24일8

Qwen 3.6 모델 비교: 코딩 성능과 속도, 어떤 것이 유리할까?

MacBook Pro M5 MAX 환경에서 Qwen 3.6 35B와 27B 모델을 코딩 프라이미티브 테스트에 적용한 결과가 공유되었습니다. 35B 모델은 72 TPS로 압도적인 속도를 보여주었지만, 27B 모델이 더 정교하고 정확한 결과를 도출했습니다. 이는 단순히 파라미터 크기가 클수록 성능이 좋다는 일반적인 가정을 재고하게 만듭니다. 코딩 작업의 성격에 따라 '속도'와 '정확성' 중 무엇을 우선할지 신중히 결정해야 함을 시사합니다.

llmqwencoding

4월 24일3

Qwen 3.6 27B, 에이전트 성능에서 Sonnet 4.6에 근접한 놀라운 성과

최근 Qwen 3.6 27B 모델이 'Artificial Analysis (AA)'의 에이전트 지수(Agentic Index)에서 놀라운 성능을 보여주며, 경쟁 모델인 Anthropic의 Claude Sonnet 4.6과 동등한 수준에 도달했습니다. 이로 인해 Gemini 3.1 Pro Preview, GPT 5.2/5.3, MiniMax 2.7 등 여러 선두 모델들을 제치고 주목받고 있습니다. 특히 코딩 지수(Coding Index)의 구성이 독특하지만, Qwen 3.6 시리즈가 에이전트 활용에 초점을 맞춘 학습을 거쳤음을 시사해

qwen-3.6llmagentic-index

4월 24일3

최신 오픈소스 LLM, Qwen3.6-27B 공개: 코딩 및 추론 능력 강화

대규모 언어 모델(LLM) 개발사에서 새로운 고성능 오픈소스 모델인 Qwen3.6-27B를 출시했습니다. 이 모델은 특히 코딩 능력과 추론 능력이 뛰어나며, 기존의 Qwen3.5-397B-A17B 등 주요 벤치마크에서 우수한 성능을 보여줍니다. Apache 2.0 라이선스를 채택하여 완전히 개방되어 있어, 개발자들이 자유롭게 활용하고 커스터마이징할 수 있다는 점이 큰 장점입니다. 다양한 모드를 지원하며, 작은 크기에도 불구하고 강력한 결과를 제공하는 것이 특징입니다.

llmopen sourceqwen3.6

4월 23일3