Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

WARNING: Open-OSS/privacy-filter MALWARE

Hugging Face의 `Open-OSS/privacy-filter` 모델은 실제로는 OpenAI 프라이버시 필터의 가짜 버전인 악성 인포스틸러(info-stealer) 바이러스입니다. 이 위협은 Python 기반 드롭퍼(`loader.py`)를 사용하여 악성 PowerShell 명령어를 다운로드하고, 의심스러운 EXE 파일을 Task Scheduler로 실행하는 방식으로 작동합니다. 사용자는 이미 해당 드롭퍼와 EXE 파일을 Microsoft 및 Hugging Face에 신고했습니다.

5월 7일9

r/LocalLLaMA분석

> 초기 포스트에서는 turboquants 를 사용했다고 언급했습니다

이 기술 기사는 Qwen 3.6 27B 모델에 Multi-Token Prediction (MTP) 기능을 지원하는 새로운 GGUF 양자화 버전을 소개합니다. MTP는 시뮬레이션 디코딩을 위한 내장 텐서 레이어를 사용하여 기존 GGUF 포맷으로는 불가능했던 기능입니다. 이 업데이트를 사용하면 Apple Silicon 및 NVIDIA GPU 환경에서 추론 속도가 최대 2.5배까지 향상되며, 최적의 성능과 메모리 관리를 위해 하드웨어 사양별로 권장되는 양자화(Quant) 및 KV 캐시 설정을 제공합니다. 사용자는 `llama.cpp`의 특정 PR 브랜치를 컴파일하고, `--spec-type mtp --spec-draft-n-max 5` 플래그를 사용하여 모델을 구동해야 합니다. 또한, Vision 기능과 MTP 기능을 동시에 사용하면 충돌이 발생할 수 있으므로 주의가 필요합니다.

5월 7일11

r/LocalLLaMA분석

Get faster qwen 3.6 27b

본 기술 기사는 llama.cpp를 사용하여 Qwen3.6-27B 모델을 100k의 긴 컨텍스트 길이에서 높은 성능으로 구동하는 방법을 공유합니다. 특히 MTP(Memory-Targeted Processing) GGUF 포맷과 최신 llama.cpp 커밋을 적용하여, 3090 GPU 환경에서 초당 50 토큰(t/s)이라는 우수한 속도를 달성했음을 보여줍니다. 이 가이드는 긴 컨텍스트 처리가 필요한 사용자들에게 실질적인 성능 향상 방법을 제시합니다.

5월 7일14

r/LocalLLaMA분석

Qwen3.6 27B Uncensored Heretic V2 Native MTP Preserved 출시

Qwen3.6 27B Uncensored Heretic V2 Native MTP Preserved 모델이 출시되었습니다. 이 모델은 KLD 0.0021, 6/100 Refusals 및 전체 15 MTPs를 보존하며, 사용자가 다양한 형식(Safetensors, GGUFs, NVFP4s)으로 다운로드할 수 있도록 제공됩니다. 특히 모든 버전에서 15개의 MTPs가 유지되어 모델의 특성을 보존한 것이 특징입니다.

5월 7일11

r/LocalLLaMA분석

HOT TAKE: 로컬 모델 + 에이전트 해르네스는 이제 초급 IT 전문가 수준의 작업을 인수할 수 있습니다.

로컬 모델과 에이전트 해르네스 기술의 발전으로 인해, 이제 초급 IT 전문가 수준의 시스템 관리 및 운영 작업까지 AI가 효과적으로 처리할 수 있게 되었습니다. 필자는 Qwen3.6 27b와 같은 로컬 SLM을 사용하여 서버 업데이트, Docker 설치, 여러 저장소 설정 등 복잡한 초기 IT 인프라 구축 작업을 성공적으로 수행했음을 보고했습니다. 이는 관리자의 노동 절감과 효율성 증대를 가져올 것이며, 향후 AI 에이전트가 시스템 관리 영역에서 핵심적인 역할을 맡게 될 것임을 시사합니다.

5월 7일8

r/LocalLLaMA분석

llama.cpp PR #22673 를 이용한 Strix Halo MTP 성능 평가

본 기사는 llama.cpp의 PR #22673을 활용하여 Strix Halo MTP(Matrix Transfer Pattern) 기능을 AI Max 395 시스템에 적용한 성능 평가 결과를 다룹니다. MTP 기능 활성화 결과, 토큰 생성 속도가 기존 약 40 토크/초에서 60~80 토크/초로 크게 향상되는 것을 확인했습니다 (Vulkan 환경에서는 40~50 토크/초 수준). 이 테스트는 AI 가속기 성능 최적화에 있어 MTP 기능의 중요성을 보여줍니다.

5월 7일14

r/LocalLLaMA분석

인간성 증명

이 기술 기사는 사용자가 자신이 봇(bot)이 아님을 증명하는 '인간성 증명' 과정을 다루고 있습니다. 본문 자체는 특정 과제나 방법론을 제시하기보다는, 사용자에게 안전과 보안에 대한 의지를 강조하며 실제 사람임을 입증할 것을 요구하고 있습니다.

5월 7일12

r/LocalLLaMA분석

Qwen3.6-27B 에 MTP 가rafted 적용: Unsloth UD XL 기반 2.5 배 성능 향상

본 기술 기사는 Qwen3-27B 모델에 Multi-Token Prediction (MTP) 기능을 GGUF 형식과 llama.cpp를 사용하여 로컬 환경에서 구현한 내용을 다룹니다. MTP는 추측적 디코딩(speculative decoding)의 한 형태로, 3개의 예측 단계를 통해 토큰 처리량을 약 2.5배 향상시키는 것이 핵심입니다. 이를 위해 Qwen3-27B의 Unsloth UD XL 양자화 모델에 MTP draft heads를 grafting하여 높은 효율성과 낮은 VRAM 오버헤드를 유지했습니다.

5월 6일17

r/LocalLLaMA분석

인간성 증명

이 기술 기사는 사용자가 자신을 실제 인간 사용자임을 증명하도록 요구하는 '인간성 증명(Humanity Proof)'의 필요성을 다루고 있습니다. 본문 자체는 구체적인 과제나 방법론을 제시하기보다는, 안전과 보안 유지를 위해 봇이 아닌 사람임을 확인해야 한다는 메시지만 반복하고 있습니다.

5월 6일9

r/LocalLLaMA분석

APEX MoE 양자화 업데이트: Qwen 3.5 게시 후 25 개 이상의 새 모델 + 새로운 I-Nano 등급

본 업데이트는 APEX의 혼합 정밀도(MoE) 양자화 전략을 확장하여 Qwen 3.5를 포함한 30개 이상의 주요 모델에 대한 새로운 버전을 제공하며, 초압축 등급인 I-Nano (IQ2_XXS)를 추가했습니다. 사용자 피드백에 따르면 APEX의 I-Balanced 및 I-Compact는 대용량 MoE 모델에서 긴 문맥 유지력과 코딩 성능을 F16 수준으로 잘 보존하는 것으로 나타났습니다. 새로운 등급은 희소 토큰당 전문가 활성화 덕분에 더욱 작은 크기로 양자화가 가능합니다.

5월 6일9

r/LocalLLaMA분석

불행스러운 소식: 애플이 고메모리 Mac Studio 구성을 중단함

애플이 고메모리(High-Memory) Mac Studio 옵션을 단계적으로 축소하거나 제거했습니다. M3 Ultra Mac Studio는 이제 최대 96GB RAM으로만 제공되며, 과거의 대용량 구성(512GB, 256GB 등)은 사라졌습니다. 이러한 변화는 아마도 고메모리 칩의 높은 생산 비용 때문인 것으로 추정됩니다.

5월 6일11

r/LocalLLaMA분석

Qwen3.6 통합 채팅 템플릿 (allanchan339 와 froggeric)

본 기술 기사는 Qwen3.6 모델을 위한 채팅 템플릿의 통합 버전을 소개합니다. 기존에 allanchan339와 froggeric이 각각 다른 목적(예: 엄격한 도구 규칙, 일반적인 대화)으로 개선된 템플릿을 출시했기 때문에 혼란스러웠던 점을 해결하고자 했습니다. 작성자는 Claude Opus의 도움을 받아 두 버전의 장점을 결합하고, vLLM과 Qwen3.6 35B A3B 환경에서 테스트한 통합 템플릿을 공유합니다.

5월 6일8

r/LocalLLaMA분석

Heretic 1.3 출시: 재현 가능한 모델, 통합 벤치마킹 시스템, VRAM 사용량 감소, 더 넓은 모델 지원 등

Heretic의 최신 버전인 1.3이 출시되었으며, 이 업데이트는 언어 모델 검열 제거(uncensoring) 분야에서 중요한 발전을 가져왔습니다. 주요 개선 사항으로는 '재현 가능한 실행' 시스템 도입으로 모델 결과의 투명성과 신뢰성이 크게 향상된 점, MMLU 등 표준 벤치마크를 직접 실행할 수 있는 간편한 통합 벤치마킹 시스템 추가가 있습니다. 또한 VRAM 사용량 최적화와 더 넓은 범위의 최신 LLM 지원을 통해 접근성과 활용도가 높아졌습니다.

5월 6일7

r/LocalLLaMA분석

PFlash: RTX 3090에서 128K 프리필 속도 llama.cpp 대비 10배 향상

PFlash는 양자화된 27B 모델의 장문맥 디코드를 위한 혁신적인 추론적 프리필(Inferential Prefill) 기법을 소개합니다. 이 기술은 전체 프롬프트에서 토큰 중요도를 평가하여, 무거운 타겟 모델이 중요한 구간만 집중적으로 처리함으로써 기존 llama.cpp 대비 10배에 달하는 속도 향상을 보여줍니다. C++/CUDA만을 사용하여 구현되었으며, 특히 긴 컨텍스트(예: 128K)에서의 초기 응답 시간(TTFT)을 크게 개선합니다.

5월 6일9

r/LocalLLaMA분석

DeepSeek V4 가 17 배 저렴해져서 클라우드와 로컬 실행의 실제 비용 분석을 시작했습니다

이 글은 DeepSeek V4가 GPT-5.2와 동등한 성능을 제공하면서도 17배 저렴해진 상황을 계기로, 일반적인 코딩 워크플로우에서 클라우드 모델 사용의 필요성을 실제 비용 관점에서 분석했습니다. 10일간의 테스트 결과, 전체 작업 중 65%는 로컬 환경(Qwen 3.6 27B)으로 충분히 처리 가능했으며, 나머지 35% 역시 오류를 허용할 수준이었습니다. 따라서 코딩 작업의 대부분은 클라우드 서비스가 필수적이지 않으며, 실제 비용을 정당화하는 영역은 전체의 약 15%에 불과하다는 결론을 내렸습니다.

5월 6일15

r/LocalLLaMA분석

GPU 없이 로컬 LLM 실행하기: 26B 모델의 놀라운 성능

본 기사는 고성능 GPU 없이 CPU와 RAM만으로 대규모 언어 모델(LLM)을 로컬 환경에서 구동하는 경험을 공유합니다. i5-8500 프로세서와 32GB RAM이라는 비교적 낮은 사양의 컴퓨터에서도 12B 모델은 원활하게 작동했으며, 심지어 Gemma4 26B 같은 대형 모델도 놀라울 정도로 빠르게 실행됨을 보여줍니다.

5월 6일13

r/LocalLLaMA분석

Dense Model Shoot-Off: Gemma 4 31B vs Qwen3.6/5 27B... 결과: 느린 것이 더 빠름

이 기사는 대규모 언어 모델(LLM)의 성능 비교 테스트 결과를 다루고 있으며, 특히 Qwen3.6/5 27B와 Gemma 4 31B를 비교하고 있습니다. 핵심 내용은 단순히 높은 벤치마크 점수를 얻는 것보다 토큰 사용 효율성과 실제 처리 속도가 더 중요하다는 것입니다. 글쓴이는 Gemma 4가 크기 때문에 약간 느리더라도, 전반적인 토큰 효율성 덕분에 훨씬 빠르고 실용적으로 작동한다고 평가합니다.

5월 6일12

r/LocalLLaMA분석

vibevoice.cpp: Microsoft VibeVoice (TTS + long-form ASR with diarization) 를

이 글은 Microsoft VibeVoice(TTS 및 장문 ASR, 화자 식별 포함)를 순수 C++ ggml 포팅 버전인 vibevoice.cpp로 출시한 내용을 담고 있습니다. 이 프로젝트는 TTS와 ASR 기능을 모두 제공하며, 특히 CPU 환경에서도 높은 성능을 보여주며 다양한 백엔드(CUDA, Metal 등)를 지원합니다. 핵심은 Python 의존성 없이 독립적인 C++ 라이브러리 형태로 배포되어 임베딩 및 시스템 통합에 매우 용이하다는 점입니다.

5월 5일12

r/LocalLLaMA분석

vLLM 이 Qwen 3.5+ 에 대해 TurboQuant 수정을 통합했습니다

vLLM 프로젝트는 Qwen 3.5+ 모델에 대한 TurboQuant 최적화 수정을 통합하여 성능을 개선했습니다. 이 업데이트를 통해 사용자들은 `turboquant_4bit_nc`와 같은 새로운 인자를 사용하여 메모리 효율성을 높이고, 다양한 양자화 옵션을 활용할 수 있게 되었습니다. 또한, Mamba 레이어 관련 오류 수정 및 배치 토큰 처리 로직 개선을 통해 안정성과 기능을 확장했습니다.

5월 5일10

r/LocalLLaMA분석

ProgramBench: 정말로 큰 바이너리부터 scratch 으로 재구성할 수 있을까요? (아니요)

ProgramBench는 에이전트가 주어진 목표 실행 파일과 문서만으로, 디컴파일링이나 외부 도움 없이 처음부터 전체 프로그램을 재구성하는 능력을 테스트하기 위해 구축된 새로운 벤치마크입니다. 이 벤치마크는 200개의 다양한 작업을 포함하며, 600만 줄의 동작 테스트를 생성하여 프로그램 구현 언어에 대한 가정을 배제하고 엄격하게 평가합니다. 연구진은 ProgramBench를 오픈소스로 공개했으며, 사용자들이 쉽게 접근하여 에이전트의 실제 소프트웨어 개발 능력을 측정할 수 있도록 지원합니다.

5월 5일13

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드