Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
r/LocalLLaMA 303건필터 해제
Qwen 3.6 또는 Gemma 4 를 로컬에서 구동해야 하는 느낌
본문은 Qwen 3.6이나 Gemma 4와 같은 대규모 언어 모델(LLM)들이 실제 업무 시나리오에서 유용하게 활용될 수 있는 '일용직 도구'임을 언급합니다. 필자는 이 모델들의 약점을 보완하는 시스템을 구축하는 것이 핵심이라고 강조하며, 이미 과거부터 LLM이 전문가급 작업을 수행해 왔음을 인정합니다. 특히 3090과 같은 소비자용 GPU를 사용하여 Qwen 3.6 27B와 같은 대형 모델을 로컬 환경에서 구동할 수 있다는 점에 주목하고 있습니다.
로컬 모델의 코딩 성능, 실제 업무 적용 가능한 수준 도달
본 기사는 로컬 환경에서 구동되는 오픈 가중치(open-weight) 대규모 언어 모델(LLM)의 코딩 성능을 분석했습니다. 27B~32B급 모델을 에이전트 하네스(agent harness)를 통해 Terminal-Bench 2.0에서 테스트한 결과, 현재 로컬 모델의 성능은 최신 상용 SOTA 모델과 비교했을 때 약 6~8개월 정도의 격차에 위치하는 것으로 나타났습니다. 이는 규제 환경이나 에어 갭(air-gapped) 같은 오프라인 배포 시나리오에서 실질적인 활용 가능성이 높아졌음을 의미합니다.
Mistral Medium 출시 예정
Mistral AI가 새로운 'Medium' 규모의 언어 모델 출시를 예고했습니다. 이 Medium 모델은 1280억 개의 파라미터를 가질 예정이며, 아키텍처는 밀집형(dense) 구조이거나 Mistral Small보다 희소도가 낮은 MoE(Mixture of Experts) 구조일 것으로 예상됩니다.
내일 나올 Mistral Vibe 관련 모델 또는 도구 업그레이드/새 도구?
Mistral AI의 'Vibe'와 관련된 새로운 모델 또는 도구 업그레이드가 곧 공개될 예정입니다. 이 트윗은 해당 업데이트에 대한 기대감을 조성하며, 구체적인 내용(모델 개선인지, 완전히 새로운 도구인지)을 명확히 밝히지는 않았습니다. 사용자들은 공식 발표를 통해 자세한 정보를 기다리고 있습니다.
Nemotron-3-Nano-Omni-30B-A3B-Reasoning, 새로운 모델?
Nemotron-3-Nano-Omni-30B-A3B-Reasoning은 오디오, 이미지/비디오, 텍스트 등 다양한 모달리티를 처리할 수 있는 멀티모달 대규모 언어 모델(LLM)입니다. 이 모델은 특히 추론 능력에 초점을 맞추었으며, 사용자는 BF16 및 GGUF 형식으로 원본과 변환된 버전을 다운로드하여 사용할 수 있습니다.
DeepSeek Vision 출시 예정
DeepSeek에서 비전 모델(Vision Model) 출시를 예고했습니다. 이 모델은 이미지와 텍스트를 모두 이해하고 처리할 수 있는 멀티모달 기능을 갖추었으며, 사용자들이 다양한 시나리오에서 활용할 수 있도록 설계되었습니다.
Skymizer Taiwan Inc., 단일 카드 기반 초대형 LLM 추론을 가능하게 하는 획기적인 아키텍처 공개
Skymizer Taiwan Inc.가 HTX301 칩과 384GB 메모리를 탑재한 단일 PCIe 카드를 공개하며, 기존 GPU의 한계를 뛰어넘는 혁신적인 LLM 추론 아키텍처를 제시했습니다. 이 시스템은 전력 소모 약 240W로 700B 파라미터 규모의 초대형 모델을 로컬에서 구동할 수 있게 합니다. 특히, 메모리 대역폭 집약적인 디코딩(decode) 작업을 전담하고 GPU는 계산 집약적인 프리필(prefill)에만 집중하도록 역할을 분리하여 효율성을 극대화했습니다.
Microsoft, TRELLIS.2 오픈소스 4b 파라미터 이미지-3D 모델 발표
Microsoft가 고품질 이미지로부터 3D 모델을 생성하는 최첨단 오픈소스 대규모 3D 생성 모델인 TRELLIS.2를 발표했습니다. 이 모델은 복잡한 위상, 날카로운 특징, 그리고 완전한 PBR 재료를 갖춘 임의의 3D 자산을 재구성하고 생성할 수 있습니다. 특히 새로운 '필드 프리' 희소 Voxel 구조인 O-Voxel을 활용하여 높은 품질의 3D 생성을 가능하게 했습니다.
중국의 제재로 메타의 20 억 달러 Manus 인수 차단
중국 정부가 메타(Meta)의 AI 스타트업 Manus 인수 계획을 공식적으로 차단했습니다. 중국 국가발전개혁위원회 산하 외국인 투자 보안 검토 기구는 법령에 따라 해당 인수를 금지하는 결정을 내렸으며, 관련 당사자들에게 거래 취소를 요구했습니다. 이는 해외 기업이 중국의 첨단 기술 분야에서 대규모 투자를 하려 할 때 정부 차원의 강력한 규제와 통제가 작용하고 있음을 보여주는 사례입니다.
AMD Hipfire - AMD GPU 를 위한 새로운 추론 엔진
hipfire는 최신 모델뿐만 아니라 모든 AMD GPU를 대상으로 하는 새로운 추론 엔진입니다. 이 엔진은 특정 MQ4 양자화 방법을 사용하여 성능을 향상시키며, Localmaxxing과 같은 벤치마킹 사이트에서 상당한 속도 개선을 보여주고 있습니다. 이는 AMD 하드웨어에 대한 커뮤니티의 관심을 반영하는 흥미로운 개발 사례입니다.
주장: Qwen 3.6 27b 가 Sonnet 4.6 보다 기능 기획에서 우수함
본 기사는 Qwen 3.6 27b가 Sonnet 4.6(Claude)보다 기능 기획 및 코드 검토 작업에서 더 우수할 수 있다는 주장을 제시합니다. 작성자는 동일한 'plan review' 작업을 통해, Qwen이 기존 코드를 깊이 있게 분석하고 잠재적 문제를 많이 포착하며 시스템 통합 측면에서 뛰어난 이해도를 보였다고 주장합니다. 반면, Claude는 기능의 통합 방식에 대한 이해도가 부족하다는 점을 지적합니다.
DeepSeek 에서 DeepEP V2 와 TileKernels 출시
딥시크(DeepSeek)가 새로운 기술 라이브러리인 DeepEP V2와 TileKernels를 출시했습니다. DeepEP V2는 효율적인 모델 학습 및 추론을 위한 기능을 제공하며, TileKernels는 고성능 컴퓨팅 환경에서 커널 최적화에 초점을 맞춘 도구입니다. 이 두 가지 출시는 딥러닝 워크로드의 성능과 효율성을 크게 향상시키는 것을 목표로 합니다.
DeepSeek V4 Pro 의 지능 밀도 감소
DeepSeek-V3.2는 Gemini 3.0-Pro와 같은 모델에 비해 토큰 효율성 개선이 필요하다는 지적이 있었으나, 최신 버전인 DeepSeek V4 Pro에서는 상황이 더욱 악화되었다. 특히 비추상 모드에서도 이전 버전에 비해 훨씬 많은 토큰을 사용하며, 모델 크기가 약 2.5배 증가했음에도 불구하고 '지능 밀도(intelligence density)'가 개선되지 않고 오히려 감소한 것으로 분석된다. 이로 인해 유사 성능의 경쟁 모델 대비 처리 속도와 효율성 면에서 큰 격차가 발생하고 있다.
DeepSeek을 갖게 되어 다행이다
최근 일부 주요 AI 기업들이 베이스 모델 공개 지연, 오픈 가중치 배포 축소, 상세 연구 논문 발표 중단 등의 경향을 보이면서 업계의 우려를 낳고 있습니다. 반면 DeepSeek은 매달 혁신적인 연구 결과를 발표하고, 베이스 모델과 오픈 가중치를 신속하게 공개하며, 상세한 런칭 논문을 통해 투명성을 유지하는 등 선도적인 모습을 보이고 있습니다.
DeepSeek v4 Flash, 코드 변경 평가에서 압도적 성능 입증
DeepSeek v4 Flash 모델의 코드 변경 평가 테스트 결과를 공개했습니다. 다중 도구 호출과 복잡한 네이티브 도구 정의에서도 오류 없이 100 회 이상의 도구 호출을 성공적으로 처리했으며, 컨텍스트 관리와 사고 과정 (thinking traces) 이 탁월함을 보였습니다. 단점으로는 토큰 생성 속도가 느리고 계획 수립에 수 분 이상 소요된다는 점입니다. 향후 더 많은 모델 용량이 2026 년 2 분기에 출시될 것으로 기대됩니다.
DeepSeek V4, Flash 및 Non-Flash 모델이 Hugging Face에 출시
AI 기업 DeepSeek AI 가 최신 대규모 언어 모델인 DeepSeek-V4 를 공식적으로 발표했습니다. 이번 업데이트는 'Flash Attention' 기술과 이를 사용하지 않는 일반 버전('Non-Flash') 두 가지 변종을 포함합니다. 사용자는 Hugging Face 에서 해당 모델을 즉시 다운로드하거나 로컬 환경에 배포할 수 있습니다.
RTX 6000 듀얼 빌드, CPU 쿨러 극한 테스트 결과
1600W 타이타늄 전원공급장치(Power Supply Unit) 를 탑재한 2x RTX 6000 GPU 빌드가 확장된 벤치마크 테스트를 견뎠습니다. CPU 가 350W 풀로드와 GPU 의 배기 열을 견디며 95°C 에서 안정적으로 작동했습니다. GPU 는 전원 한도인 535W 로 제한되었으나, 시스템의 실제 병목은 열이 아닌 전력 공급임을 확인했습니다.
RTX 5090 에서 Qwen3.6-27B, 218k 컨텍스트로 ~80 tps 달성
Qwen3.6-27B 모델이 출시된 지 며칠 만에 HuggingFace에 NVFP4 및 MTP 기능이 포함된 버전이 공개되었습니다. 이전 Qwen3.5-27B 데모에서 사용했던 동일한 레시피를 적용하면, 최신 vLLM 0.19 빌드 (vLLM 0.19.1rc1) 를 통해 단일 RTX 5090 GPU 에서 218k 토큰 컨텍스트 윈도우에서도 약 80 토크/초 (tps) 의 속도를 달성할 수 있습니다.
Qwen3.6-35B-A3B 의 맥락 오인식: 'Ghost in the Shell' 순간
사용자가 Qwen3.6-35B-A3B 모델을 로컬에서 실행 중일 때, 실제 맥락이 가득 찼을 시점에 모델이 스스로 '맥락이 부족함'을 환각(hallucination)하여 중단하거나 오류를 발생시킨 사례입니다. 이는 최신 대형 언어 모델(LLM) 의 내부 상태 관리나 토큰 처리 로직에서 발생할 수 있는 흥미로운 버그나 한계를 보여줍니다.
Qwen: 왜 27B 밀집 모델이 397B MoE 를 능가하는가
사용자가 Qwen의 27B 밀집(Dense) 모델이 397B 모노리틱(MoE) 모델을 압도하는 이유에 대해 의문을 제기함. 일반적으로 MoE 가 더 많은 파라미터를 가진다는 전제와 달리, Qwen 은 밀집 구조에서 뛰어난 성능을 발휘하여 작은 모델로도 큰 모델을 능가함을 보여줌.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.