본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

r/LocalLLaMA 302필터 해제

r/LocalLLaMA분석

vibevoice.cpp: Microsoft VibeVoice (TTS + long-form ASR with diarization) 를

이 글은 Microsoft VibeVoice(TTS 및 장문 ASR, 화자 식별 포함)를 순수 C++ ggml 포팅 버전인 vibevoice.cpp로 출시한 내용을 담고 있습니다. 이 프로젝트는 TTS와 ASR 기능을 모두 제공하며, 특히 CPU 환경에서도 높은 성능을 보여주며 다양한 백엔드(CUDA, Metal 등)를 지원합니다. 핵심은 Python 의존성 없이 독립적인 C++ 라이브러리 형태로 배포되어 임베딩 및 시스템 통합에 매우 용이하다는 점입니다.

5월 5일12
r/LocalLLaMA분석

vLLM 이 Qwen 3.5+ 에 대해 TurboQuant 수정을 통합했습니다

vLLM 프로젝트는 Qwen 3.5+ 모델에 대한 TurboQuant 최적화 수정을 통합하여 성능을 개선했습니다. 이 업데이트를 통해 사용자들은 `turboquant_4bit_nc`와 같은 새로운 인자를 사용하여 메모리 효율성을 높이고, 다양한 양자화 옵션을 활용할 수 있게 되었습니다. 또한, Mamba 레이어 관련 오류 수정 및 배치 토큰 처리 로직 개선을 통해 안정성과 기능을 확장했습니다.

5월 5일10
r/LocalLLaMA분석

ProgramBench: 정말로 큰 바이너리부터 scratch 으로 재구성할 수 있을까요? (아니요)

ProgramBench는 에이전트가 주어진 목표 실행 파일과 문서만으로, 디컴파일링이나 외부 도움 없이 처음부터 전체 프로그램을 재구성하는 능력을 테스트하기 위해 구축된 새로운 벤치마크입니다. 이 벤치마크는 200개의 다양한 작업을 포함하며, 600만 줄의 동작 테스트를 생성하여 프로그램 구현 언어에 대한 가정을 배제하고 엄격하게 평가합니다. 연구진은 ProgramBench를 오픈소스로 공개했으며, 사용자들이 쉽게 접근하여 에이전트의 실제 소프트웨어 개발 능력을 측정할 수 있도록 지원합니다.

5월 5일13
r/LocalLLaMA분석

Gemma 4 MTP 모델 출시

Google은 Gemma 4 모델의 성능을 극대화하기 위해 멀티 토큰 예측(MTP) 드래프트 모델을 출시했습니다. MTP는 기본 모델을 더 작고 빠른 드래프트 모델로 확장하여, Speculative Decoding 파이프라인에서 사용됩니다. 이 기술은 드래프트 모델이 여러 토큰을 미리 예측하고 타겟 모델이 이를 병렬로 검증함으로써, 표준 생성과 동일한 품질을 유지하면서 디코딩 속도를 최대 2배까지 향상시킵니다.

5월 5일40
r/LocalLLaMA분석

Peanut - 텍스트 생성 이미지 모델 (오픈 가중치 곧 출시)

Peanut이라는 이름의 새로운 익명 텍스트-이미지 생성 모델이 'Artificial Analysis Text to Image Arena'에서 데뷔하며 주목받고 있습니다. 이 모델은 오픈 가중치로 출시될 예정이며, Z-Image Turbo, Qwen-Image, FLUX.2 [dev] 등 기존 선도적인 모델들을 능가하는 성능을 보여줄 것으로 기대됩니다.

5월 5일11
r/LocalLLaMA분석

DeepSeek V4 Pro 가 FoodTruck 벤치마크에서 GPT-5.2 와 동점, 에이전트 벤치마크 약 10 주 후 ~17 배 저렴함

DeepSeek V4 Pro가 'FoodTruck Bench'라는 30일 에이전트 벤치마크에서 GPT-5.2와 동등한 성능을 보여주며 프론티어 티어에 진입했습니다. 특히, DeepSeek V4 Pro는 동일한 수준의 에이전트 작업 수행 시 기존 모델 대비 최대 17배 저렴하여 비용 효율성 측면에서 압도적인 우위를 점하고 있습니다. 이는 중국 기반 모델들이 짧은 시간 내에 미국 선두 그룹을 따라잡으며 AI 기술 격차를 빠르게 줄이고 있음을 보여줍니다.

5월 5일10
r/LocalLLaMA분석

Hugging Face 모델 아키텍처를 시각적으로 탐색하기 위한 도구를 만들었습니다

이 글은 Hugging Face 모델 아키텍처를 시각적으로 탐색하고 비교할 수 있는 웹 도구 'hfviewer.com'의 출시를 알립니다. 사용자는 단순히 Hugging Face URL만 붙여넣으면, 해당 모델의 인터랙티브한 구조적 시각화를 얻을 수 있습니다. 이 도구는 다양한 모델 간의 아키텍처 차이를 직관적으로 이해하고 비교하는 데 도움을 줍니다.

5월 5일11
r/LocalLLaMA분석

C++17 에서부터 Transformer 구현: PyTorch, BLAS, 의존성 없이 CPU 로 훈련

이 기술 기사는 C++17 표준 라이브러리와 POSIX 소켓만을 의존성으로 사용하여 GPT 스타일의 트랜스포머 언어 모델(Quadtrix.cpp)을 처음부터 구현하고 훈련한 과정을 설명합니다. 이 프로젝트는 PyTorch, LibTorch, BLAS와 같은 외부 자동 미분 프레임워크 없이 모든 핵심 구성 요소—텐서 라이브러리, 전진/후진 연산자, AdamW 최적화기 등—를 수동으로 작성했습니다. CPU 환경에서 76분 만에 훈련된 이 모델은 약 0.83M 파라미터를 가지며, 모든 복잡한 계산(예: 레이어 노름 후진 패스)을 직접 구현했음을 보여줍니다. 또한 OpenMP를 사용하여 CPU 병렬화 최적화를 달성했으며, GPU 버전에서는 PyTorch와 비교하여 상당한 속도 향상을 이루었습니다.

5월 5일10
r/LocalLLaMA분석

1tk/s 에서 20~100tk/s 로: 거대 모델이 등장한 때다

최근 하드웨어 발전 덕분에 과거에는 느리게 실행되던 거대 언어 모델(LLM)들을 훨씬 빠르고 효율적으로 로컬 환경에서 구동할 수 있게 되었습니다. 이제는 Kimik2.6, DeepSeekV4Flash 등 최신 초대형 모델들을 30~100tk/sec의 속도로 구동하며 이전 세대의 거대 모델 성능을 압도합니다. 이러한 발전은 AGI(범용 인공지능)가 상상했던 것보다 훨씬 빠르게 현실화되고 있음을 보여줍니다.

5월 4일10
r/LocalLLaMA분석

Cursor 및 OpenCode 등 오픈소스 모델이 미래가 될 것

글쓴이는 현재 상용 LLM(GPT-5.5, Claude Opus 등)의 높은 비용 구조와 과도한 가격 정책을 지적하며 우려를 표명하고 있습니다. 이에 대한 대안으로, 향후 몇 년 내에 비용 효율성이 높고 성능이 비교 가능한 오픈소스 모델들이 주류가 될 것이라고 예측합니다.

5월 4일10
r/LocalLLaMA분석

Llama.cpp MTP 지원 베타 출시!

llama.cpp가 MTP(Multi-Token Prediction) 기능을 베타 버전으로 출시하여 모델 추론 성능을 크게 향상시켰습니다. 이 기능은 현재 Qwen3.5 등 특정 모델에 적용되었으며, 다른 모델들로도 확산될 것으로 기대됩니다. 또한, 텐서-병렬 지원의 성숙과 결합하여 vLLM과의 토큰 생성 속도 격차가 곧 해소될 전망입니다.

5월 4일15
r/LocalLLaMA분석

Chat Template 수정 완료: Gemma 4 GGUF 업데이트

본 기술 기사는 Gemma 4 모델의 채팅 템플릿(Chat Template)이 수정되었음을 알리고, 업데이트된 GGUF 형식의 다양한 크기 및 버전별 모델을 제공합니다. 사용자는 Hugging Face 링크를 통해 여러 개발자(bartowski, unsloth 등)가 공유한 최신 Gemma 4 GGUF 파일을 다운로드하여 활용할 수 있습니다.

5월 4일10
r/LocalLLaMA분석

Qwen 기반의 매우 인간적인 Fine-tune: Assistant_Pepe_32B

본 기사는 Qwen3-32B를 기반으로 'Assistant_Pepe_32B'라는 매우 인간적인 특성을 가진 어시스턴트 모델을 소개합니다. 이 모델은 일반적인 어시스턴트들이 가지는 의사공감(sycophancy)을 줄이고 부정적 편향(negativity bias)을 강화하여, 사용자와의 상호작용에서 더욱 '인간적인' 반응을 보이도록 튜닝되었습니다.

5월 4일9
r/LocalLLaMA분석

AMD Strix Halo 리브리스: 192GB 메모리 탑재!

AMD의 차세대 Strix Halo(Gorgon halo 495 max)가 기존보다 훨씬 많은 메모리를 탑재할 것으로 예상되며, 특히 192GB 또는 그 이상의 대용량 메모리 옵션이 주목받고 있습니다. 이처럼 증가된 메모리는 현재 실행하기 어려웠던 거대한 MoE 모델이나 최신 LLM을 더 큰 컨텍스트로 구동하는 데 핵심적인 역할을 할 것으로 보입니다.

5월 4일5
r/LocalLLaMA분석

한 가지 bash 권한 실수가 발생했습니다...

작성자는 잘못 구성된 bash 명령어 체인과 실수로 인해 여러 개의 디렉토리를 생성하는 심각한 권한 실수를 경험했습니다. 이 과정에서 `rm -rf` 명령어를 포함하는 대규모 스크립트를 실행할 뻔했고, 이는 큰 위험을 초래했습니다. 글은 개발 과정에서의 실수와 그 위험성을 공유하며, 코딩 환경의 격리(VM 사용)에 대한 주의를 당부합니다.

5월 4일6
r/LocalLLaMA분석

FPGA 에서 50,000 tps 로 실행되는 Karpathy 의 MicroGPT

이 기술 기사는 Karpathy의 MicroGPT를 FPGA 환경에서 50,000 tps라는 높은 속도로 실행한 사례를 다루고 있습니다. 비록 파라미터 수가 적은 소형 모델이지만, 온보드(onboard) ROM에 가중치를 배치함으로써 외부 메모리 의존성을 줄여 성능을 극대화했습니다. 이러한 접근 방식은 향후 더 많은 파라미터를 처리할 수 있는 SLM 전용 FPGA 개발 및 관련 기술 발전에 기여할 것으로 기대됩니다.

5월 3일12
r/LocalLLaMA분석

Qwen3.6-27B vs Coder-Next

본 기사는 Qwen3.6-27B와 Coder-Next 두 대규모 언어 모델을 실제 복잡한 작업 환경에서 비교 분석한 결과를 담고 있습니다. 테스트 결과, 두 모델은 전반적인 성능이 매우 유사하여 '상황에 따라 다르다'는 결론을 내렸습니다. Qwen3.6-27B는 특히 'thinking' 기능을 비활성화했을 때 일관된 성공률을 보였으며, Coder-Next는 특정 작업(예: 제한된 비즈니스 메모, 문서 합성)에서 27B보다 높은 효율성을 보여주었습니다. 결론적으로, 어떤 모델이 더 우수하다기보다는 수행하려는 '작업의 성격'에 따라 최적의 선택이 달라집니다.

5월 3일33
r/LocalLLaMA분석

우리가 마침내 그곳에 도착했습니다: Qwen3.6-27B + 에이전트 검색; 단일 RTX 3090 에서 95.7% SimpleQA 달성, 완전

LDR(Local Deep Research) 프로젝트가 RTX 3090 환경에서 Qwen3.6-27B 모델과 에이전트 검색 전략을 결합하여 SimpleQA 벤치마크에서 95.7%라는 높은 성능을 달성했습니다. 이 결과는 단순한 LLM의 능력을 넘어, 복잡한 툴 호출, 병렬 서브토픽 분해, 다중 반복 기능을 갖춘 에이전트 시스템의 강력함을 입증합니다. 특히 로컬 환경에서 웹 검색과 깊은 리서치 능력을 구현했다는 점에서 의미가 크며, Perplexity나 Tavily 같은 상용 서비스와 유사한 수준에 도달했음을 시사합니다.

5월 2일11
r/LocalLLaMA분석

Windows 에서 네이티브 vLLM 을 사용하여 RTX 3090 에서 Qwen3.6-27B 실행 (WSL, Docker 없음)

이 기술 기사는 WSL이나 Docker 없이 순수 네이티브 Windows 환경에서 vLLM을 사용하여 Qwen3.6-27B와 같은 대규모 언어 모델(LLM)을 RTX 3090과 같은 GPU에서 실행하는 방법을 소개합니다. 개발자는 패치된 vLLM 포크를 제공하여 설치 과정을 간소화하고, 사용자가 별도의 복잡한 환경 설정 없이도 OpenAI 호환 엔드포인트를 통해 LLM 추론 서비스를 이용할 수 있게 합니다. 제공된 벤치마크 결과는 특정 조건(예: 긴 컨텍스트 길이)에서 높은 토큰 생성 속도를 보여주며, 이는 기존 커뮤니티 기록과 비교하여 격차를 줄이는 데 초점을 맞추고 있습니다. 이 솔루션은 Ampere 또는 Ada 아키텍처의 NVIDIA GPU에 최적화되어 있으며, 사용 편의성을 극대화한 것이 특징입니다.

5월 2일10
r/LocalLLaMA분석

암수익 캠페인이 중국 AI를 위협으로 묘사하기 위해 인플루언서에게 비용을 지불하고 있습니다

일부 단체들이 인플루언서에게 비용을 지불하며 'Build American AI' 캠페인을 전개하고 있으며, 이 과정에서 중국에 대한 두려움을 조장하는 메시지를 확산시키고 있습니다. 이러한 배경 속에서 로컬 LLM과 오픈 소스 모델의 중요성이 강조되고 있으며, 사용자들은 더 많은 오픈 가중치와 모델 공유를 지지해야 한다고 주장합니다.

5월 2일11

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.