Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
r/LocalLLaMA 74건필터 해제
AMD Hipfire - AMD GPU 를 위한 새로운 추론 엔진
hipfire는 최신 모델뿐만 아니라 모든 AMD GPU를 대상으로 하는 새로운 추론 엔진입니다. 이 엔진은 특정 MQ4 양자화 방법을 사용하여 성능을 향상시키며, Localmaxxing과 같은 벤치마킹 사이트에서 상당한 속도 개선을 보여주고 있습니다. 이는 AMD 하드웨어에 대한 커뮤니티의 관심을 반영하는 흥미로운 개발 사례입니다.
주장: Qwen 3.6 27b 가 Sonnet 4.6 보다 기능 기획에서 우수함
본 기사는 Qwen 3.6 27b가 Sonnet 4.6(Claude)보다 기능 기획 및 코드 검토 작업에서 더 우수할 수 있다는 주장을 제시합니다. 작성자는 동일한 'plan review' 작업을 통해, Qwen이 기존 코드를 깊이 있게 분석하고 잠재적 문제를 많이 포착하며 시스템 통합 측면에서 뛰어난 이해도를 보였다고 주장합니다. 반면, Claude는 기능의 통합 방식에 대한 이해도가 부족하다는 점을 지적합니다.
DeepSeek 에서 DeepEP V2 와 TileKernels 출시
딥시크(DeepSeek)가 새로운 기술 라이브러리인 DeepEP V2와 TileKernels를 출시했습니다. DeepEP V2는 효율적인 모델 학습 및 추론을 위한 기능을 제공하며, TileKernels는 고성능 컴퓨팅 환경에서 커널 최적화에 초점을 맞춘 도구입니다. 이 두 가지 출시는 딥러닝 워크로드의 성능과 효율성을 크게 향상시키는 것을 목표로 합니다.
DeepSeek V4 Pro 의 지능 밀도 감소
DeepSeek-V3.2는 Gemini 3.0-Pro와 같은 모델에 비해 토큰 효율성 개선이 필요하다는 지적이 있었으나, 최신 버전인 DeepSeek V4 Pro에서는 상황이 더욱 악화되었다. 특히 비추상 모드에서도 이전 버전에 비해 훨씬 많은 토큰을 사용하며, 모델 크기가 약 2.5배 증가했음에도 불구하고 '지능 밀도(intelligence density)'가 개선되지 않고 오히려 감소한 것으로 분석된다. 이로 인해 유사 성능의 경쟁 모델 대비 처리 속도와 효율성 면에서 큰 격차가 발생하고 있다.
DeepSeek을 갖게 되어 다행이다
최근 일부 주요 AI 기업들이 베이스 모델 공개 지연, 오픈 가중치 배포 축소, 상세 연구 논문 발표 중단 등의 경향을 보이면서 업계의 우려를 낳고 있습니다. 반면 DeepSeek은 매달 혁신적인 연구 결과를 발표하고, 베이스 모델과 오픈 가중치를 신속하게 공개하며, 상세한 런칭 논문을 통해 투명성을 유지하는 등 선도적인 모습을 보이고 있습니다.
DeepSeek v4 Flash, 코드 변경 평가에서 압도적 성능 입증
DeepSeek v4 Flash 모델의 코드 변경 평가 테스트 결과를 공개했습니다. 다중 도구 호출과 복잡한 네이티브 도구 정의에서도 오류 없이 100 회 이상의 도구 호출을 성공적으로 처리했으며, 컨텍스트 관리와 사고 과정 (thinking traces) 이 탁월함을 보였습니다. 단점으로는 토큰 생성 속도가 느리고 계획 수립에 수 분 이상 소요된다는 점입니다. 향후 더 많은 모델 용량이 2026 년 2 분기에 출시될 것으로 기대됩니다.
DeepSeek V4, Flash 및 Non-Flash 모델이 Hugging Face에 출시
AI 기업 DeepSeek AI 가 최신 대규모 언어 모델인 DeepSeek-V4 를 공식적으로 발표했습니다. 이번 업데이트는 'Flash Attention' 기술과 이를 사용하지 않는 일반 버전('Non-Flash') 두 가지 변종을 포함합니다. 사용자는 Hugging Face 에서 해당 모델을 즉시 다운로드하거나 로컬 환경에 배포할 수 있습니다.
RTX 6000 듀얼 빌드, CPU 쿨러 극한 테스트 결과
1600W 타이타늄 전원공급장치(Power Supply Unit) 를 탑재한 2x RTX 6000 GPU 빌드가 확장된 벤치마크 테스트를 견뎠습니다. CPU 가 350W 풀로드와 GPU 의 배기 열을 견디며 95°C 에서 안정적으로 작동했습니다. GPU 는 전원 한도인 535W 로 제한되었으나, 시스템의 실제 병목은 열이 아닌 전력 공급임을 확인했습니다.
RTX 5090 에서 Qwen3.6-27B, 218k 컨텍스트로 ~80 tps 달성
Qwen3.6-27B 모델이 출시된 지 며칠 만에 HuggingFace에 NVFP4 및 MTP 기능이 포함된 버전이 공개되었습니다. 이전 Qwen3.5-27B 데모에서 사용했던 동일한 레시피를 적용하면, 최신 vLLM 0.19 빌드 (vLLM 0.19.1rc1) 를 통해 단일 RTX 5090 GPU 에서 218k 토큰 컨텍스트 윈도우에서도 약 80 토크/초 (tps) 의 속도를 달성할 수 있습니다.
Qwen3.6-35B-A3B 의 맥락 오인식: 'Ghost in the Shell' 순간
사용자가 Qwen3.6-35B-A3B 모델을 로컬에서 실행 중일 때, 실제 맥락이 가득 찼을 시점에 모델이 스스로 '맥락이 부족함'을 환각(hallucination)하여 중단하거나 오류를 발생시킨 사례입니다. 이는 최신 대형 언어 모델(LLM) 의 내부 상태 관리나 토큰 처리 로직에서 발생할 수 있는 흥미로운 버그나 한계를 보여줍니다.
Qwen: 왜 27B 밀집 모델이 397B MoE 를 능가하는가
사용자가 Qwen의 27B 밀집(Dense) 모델이 397B 모노리틱(MoE) 모델을 압도하는 이유에 대해 의문을 제기함. 일반적으로 MoE 가 더 많은 파라미터를 가진다는 전제와 달리, Qwen 은 밀집 구조에서 뛰어난 성능을 발휘하여 작은 모델로도 큰 모델을 능가함을 보여줌.
Anthropic의 Ling-2.6-1T, 오픈 가중치 공개 확정
Anthropic이 개발한 초대규모 언어 모델인 Ling-2.6-1T가 오픈 가중치 (Open Weights) 로 공개될 것이 확인되었습니다. 이전 Ling 2 모델의 성공적인 전략을 이어받아, 총 파라미터 수는 1 조 개에 달하지만 실제 학습된 활성 파라미터는 500 억 개로 제한하여 효율성을 극대화했습니다. 이번에는 이를 한 단계 더 발전시킨 플래시 (Flash) 모델도 공개되며, 이 모델은 총 1040 억 개의 파라미터를 가지면서도 핵심적인 70 억 개만 활성화시켜 추론 비용을 획기적으로 낮추고 성능을 유지합니다. 이는 초대규모 모델의 접근성을 높이고, 연구자와 개발자들이 고품질의 오픈소스 모델을 활용할 수 있는 중요한 이정표가 될 것입니다.
RTX 3090 한 대로 Qwen3.6-27B, 85 TPS 및 125K 컨텍스트 구현
Wasif Basharat 개발자가 단일 RTX 3090 GPU로 Qwen3.6-27B 모델을 85 토크/초 (TPS) 의 속도와 125,000 토큰 컨텍스트 윈도우, 그리고 비전 처리 기능을 성공적으로 실행하는 스택을 완성했습니다. 해당 패치가 GitHub에 추가되었으며, 관련 링크는 블로그 게시글에서 업데이트되었습니다. 저비용 하드웨어 환경에서도 고성능 LLM 추론이 가능함을 보여주는 사례입니다.
딥시크 V4, 멀티모달리티 미포함…하지만 기다려본다
딥시크 V4 프로 모델의 기술 보고서에 따르면 현재 버전은 텍스트 기반이며 멀티모달리티(이미지/비디오 처리) 기능이 아직 포함되지 않았습니다. 하지만 개발자들은 이 기능의 추가를 기대하며 다음 릴리스까지 기다릴 의사를 밝혔습니다.
DeepSeek-v4, 384K 출력 지원으로 웹 개발 생산성 극대화
최근 DeepSeek-v4 모델이 최대 384K 토큰의 거대한 출력을 지원한다는 소식이 화제입니다. 이는 단순히 긴 글을 생성하는 것을 넘어, 단일 HTML 파일과 같은 복잡하고 구조적인 결과물을 한 번에 완성할 수 있음을 의미합니다. 이 기능을 활용하면 웹 페이지 전체를 프롬프트와 함께 요청하여 100KB 크기의 완전한 싱글-페이지 애플리케이션(SPA)을 즉시 얻어낼 수 있어, 개발 과정의 효율성과 생산성이 혁신적으로 높아질 것으로 기대됩니다.
Qwen의 성능 급상승에 따른 로컬 LLM 환경 구축 고려 사항
최근 Qwen 모델군의 눈부신 발전 속도를 목격하며, 고성능 로컬 AI 구동 환경 구축 필요성이 대두되고 있습니다. 현재 27B급 모델들이 GPT-4o와 견줄 만한 성능을 보여주면서, 클라우드 의존성을 줄이고 개인 워크스테이션에서 강력한 LLM 실험을 진행할 시점이라는 분석입니다. M1 Pro 사용자라도 향후 고성능 GPU(예: 128GB 메모리 Max 칩)로의 업그레이드를 진지하게 고려해야 할 만큼, 로컬 AI 환경이 빠르게 전문화되고 있습니다.
Qwen 3.6 모델 비교: 코딩 성능과 속도, 어떤 것이 유리할까?
MacBook Pro M5 MAX 환경에서 Qwen 3.6 35B와 27B 모델을 코딩 프라이미티브 테스트에 적용한 결과가 공유되었습니다. 35B 모델은 72 TPS로 압도적인 속도를 보여주었지만, 27B 모델이 더 정교하고 정확한 결과를 도출했습니다. 이는 단순히 파라미터 크기가 클수록 성능이 좋다는 일반적인 가정을 재고하게 만듭니다. 코딩 작업의 성격에 따라 '속도'와 '정확성' 중 무엇을 우선할지 신중히 결정해야 함을 시사합니다.
Qwen 3.6 27B, 에이전트 성능에서 Sonnet 4.6에 근접한 놀라운 성과
최근 Qwen 3.6 27B 모델이 'Artificial Analysis (AA)'의 에이전트 지수(Agentic Index)에서 놀라운 성능을 보여주며, 경쟁 모델인 Anthropic의 Claude Sonnet 4.6과 동등한 수준에 도달했습니다. 이로 인해 Gemini 3.1 Pro Preview, GPT 5.2/5.3, MiniMax 2.7 등 여러 선두 모델들을 제치고 주목받고 있습니다. 특히 코딩 지수(Coding Index)의 구성이 독특하지만, Qwen 3.6 시리즈가 에이전트 활용에 초점을 맞춘 학습을 거쳤음을 시사해
최신 오픈소스 LLM, Qwen3.6-27B 공개: 코딩 및 추론 능력 강화
대규모 언어 모델(LLM) 개발사에서 새로운 고성능 오픈소스 모델인 Qwen3.6-27B를 출시했습니다. 이 모델은 특히 코딩 능력과 추론 능력이 뛰어나며, 기존의 Qwen3.5-397B-A17B 등 주요 벤치마크에서 우수한 성능을 보여줍니다. Apache 2.0 라이선스를 채택하여 완전히 개방되어 있어, 개발자들이 자유롭게 활용하고 커스터마이징할 수 있다는 점이 큰 장점입니다. 다양한 모드를 지원하며, 작은 크기에도 불구하고 강력한 결과를 제공하는 것이 특징입니다.
로컬 LLM 에이전트 활용 가이드: Qwen3.6 35B와 'Plan-First' 워크플로우
본 글은 로컬 환경에서 구동되는 LLM 코딩 에이전트(PI Coding Agent)를 활용한 성공적인 개발 경험을 공유합니다. 특히 'Plan-First'라는 구조화된 스킬 파일을 도입하여, AI가 무작정 코드를 작성하는 것이 아니라 프로젝트 분석 → 질문 → TODO 계획 수립 → 단계별 실행이라는 체계적인 워크플로우를 따르도록 강제했습니다. 이 방법은 실제 프로덕션 환경에서도 높은 안정성을 보여주었으며, LLM 기반 개발의 신뢰도를 극적으로 높이는 핵심 가이드라인을 제시합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.