본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

r/LocalLLaMA 295필터 해제

r/LocalLLaMA분석

EAGLE3가 llama.cpp에 도입되었습니다

6개월간의 개발 끝에 EAGLE3 기술이 llama.cpp에 공식 병합되었습니다. EAGLE3는 메인 모델의 가이드를 받아 추측을 수행하는 방식으로, 기존 MTP와 차별화된 성능을 제공합니다.

4일 전0
r/LocalLLaMA분석

계층적 학습 패러다임 (HTP): 인공지능을 위한 새로운 청사진

AI의 논리적 추론 능력 향상과 아첨 문제 해결을 위해 제안된 '계층적 학습 패러다임(HTP)'에 관한 아이디어입니다. 학습 데이터를 언어, 논리/추론, 실제 세상 정보 순으로 단계별로 제공하여 인간의 학습 방식을 모방하는 새로운 접근법을 다룹니다.

4일 전0
r/LocalLLaMA분석

Huawei, openPangu 2.0 출시 (6월 30일 오픈 소스 공개 예정)

Huawei가 HarmonyOS와 Ascend 컴퓨팅에 최적화된 오픈 소스 대규모 언어 모델인 openPangu 2.0을 출시했습니다. 512K 컨텍스트 처리 능력을 갖추었으며, 높은 희소성 비율을 통해 효율적인 파라미터 활용을 구현했습니다.

4일 전0
r/LocalLLaMA분석

모든 MTP 어시스턴트가 동등하게 만들어진 것은 아니다

llama.cpp 환경에서 Gemma 4 모델을 대상으로 MTP(Speculative Decoding) 성능을 실험한 결과, 어시스턴트 모델의 품질과 양자화 방식이 추론 속도에 결정적인 영향을 미침을 확인했습니다.

4일 전0
r/LocalLLaMA분석

Qwen 3.6 27B와 Openclaw를 16GB VRAM에서 구동하기

16GB VRAM 환경에서 Qwen 3.6 27B 모델과 Openclaw를 안정적으로 구동하기 위한 설정 방법을 공유합니다. VRAM 확보를 위한 스크립트 활용과 llama-server의 구체적인 실행 옵션을 통해 도구 호출(tool calling) 문제를 해결한 사례입니다.

4일 전1
r/LocalLLaMA분석

Jackrong/Qwopus3.6-27B-Coder-MTP

Qwopus3.6-27B-Coder-MTP 모델의 성능을 벤치마킹한 결과입니다. MTP Speculative Decoding 기술을 적용했을 때 토큰 생성 속도가 약 2.07배 향상됨을 확인했습니다.

4일 전0
r/LocalLLaMA분석

Meta가 자체 LLM 개발을 중단하고 관련 직원들을 재배치하는 것처럼 보입니다

Meta가 대규모 구조조정을 통해 인력의 10%를 해고하고, 기존 AI 모델 학습 인력을 AI 워크플로우 관련 새로운 이니셔티브로 재배치하고 있습니다.

4일 전0
r/LocalLLaMA분석

비개발자인데 Openlumara용 첫 커스텀 모듈을 만들었어요

사용자가 Openlumara를 활용하여 Obsidian 볼트 파일을 대시보드 형태로 불러와 필요에 따라 모듈을 제어하는 커스텀 기능을 구현했습니다. 이 기능은 프롬프트 주입 내용을 세밀하게 제어할 수 있게 하며, JSON 파일로 20개의 슬롯을 구성하고 토글링 방식으로 관리합니다.

4일 전0
r/LocalLLaMA분석

Supra-Title 모델 0.3B 출시!

Supra Title 모델이 채팅 대화 제목 생성에 특화되어 출시되었습니다. LFM2.5-350M을 기반으로 하며, 오직 제목 생성 기능만을 수행하도록 설계되었습니다. GGUF 형식 지원과 간단한 사용법 덕분에 모든 하드웨어에서 빠르고 쉽게 활용할 수 있습니다.

4일 전0
r/LocalLLaMA분석

LLM 호출을 최적화하고 토큰 사용량을 줄이기 위한 컨텍스트 프로파일러 활용

ContextSpy는 LLM 애플리케이션과 코딩 에이전트를 위한 컨텍스트 윈도우 프로파일러 도구입니다. 이 로컬 프록시는 모든 요청을 기록하고, 시스템 프롬프트, 툴 정의, 파일 내용 등 입력 토큰 사용처를 세분화하여 분석합니다. 이를 통해 개발자는 컨텍스트 윈도우의 실제 사용 패턴을 파악하고 토큰 사용량을 최적화할 수 있습니다.

4일 전0
r/LocalLLaMA분석

하나의 최적 모델을 찾으려 하기보다 여러 모델에 작업을 분산시키니 훨씬 수월해졌다

최적의 단일 모델을 찾기보다 작업을 여러 전문 모델에 분산시키는 전략이 효율적임을 강조합니다. Flash V4는 간단한 작업, glm-5.1은 백엔드 구축, Opus 4.6은 복잡한 추론 및 버그 해결 등 각 모델의 강점을 활용하여 성능과 비용을 최적화하는 방법을 제시합니다.

4일 전0
r/LocalLLaMA분석

Apostate 엔진 미리 보기

사용자가 'Apostate'라는 abliteration engine을 개발하고 있음을 공유했습니다. 기존의 직교 투영 방식의 경직성을 극복하기 위해 사각 투영(oblique projection)을 구현했으며, 다음 단계로는 KL 다이버전스를 보존하는 전단 매핑(shear mapping) 도입을 계획 중입니다.

4일 전0
r/LocalLLaMA분석

PWA 지원이 병합되었습니다

llama-server UI에 PWA(Progressive Web App) 지원이 추가되어, 웹 인터페이스가 네이티브 앱처럼 작동할 수 있게 되었습니다. 이를 통해 데스크톱/홈 화면 설치, 독립 창 모드 등 사용자 경험이 크게 향상되었으며, 재접속 속도와 업데이트 안정성도 개선되었습니다.

4일 전0
r/LocalLLaMA분석

Diffusion Gemma는 속도는 4배 빠르지만, 오류는 6배 더 많이 만듭니다!

새로운 Diffusion Gemma 모델을 기존 자율 회귀(autoregressive) Gemma4와 비교한 벤치마크 결과입니다. DiffusionGemma는 속도는 빠르지만, 사실 확인 과정에서 오류가 훨씬 많이 발견되었습니다. 반면, 일반 Gemma4는 느리지만 정확도가 높아 중요한 정보 전달에 더 적합함을 보여줍니다.

4일 전0
r/LocalLLaMA분석

Hugging Face에 올라온 새로운 모델

리우데자네이루 시 정부 연구원이 개발한 새로운 오픈 소스 모델을 Hugging Face에 공개했습니다. 이 모델은 기존의 qwen 3.7 플러스와 비교해도 성능이 우수해 보이며, 연구 커뮤니티에서 활용될 수 있도록 공유되었습니다.

4일 전0
r/LocalLLaMA분석

Fable 5 데이터셋 (CoT 포함)

Fable 5 데이터셋을 공개하며, 이 데이터에는 CoT(Chain-of-Thought) 정보가 포함되어 있습니다. 해당 데이터를 활용하여 곧 파인튜닝된 모델들이 출시될 것으로 예상됩니다.

4일 전0
r/LocalLLaMA분석

Claude Code를 대체한 Pi 설정

사용자가 Qwen3.6-27B 모델과 'advisor' 확장 기능을 결합한 Pi 설정을 소개하며, 이 조합이 기존의 Codex나 Claude Code를 대체할 만큼 강력하다고 주장합니다. 해당 설정은 로컬 모델 지원, 사용자 지정 푸터, 컨텍스트 분석 명령어 등 다양한 개발자 편의 기능을 제공합니다.

4일 전0
r/LocalLLaMA분석

개인 LLM 백업을 위한 최신 아카이브 광학 저장 매체: 128GB BD-R XL M-DISC

LLM 백업을 위해 장기 보존이 가능한 광학 저장 매체(Blu-Ray) 사용을 권장합니다. 특히 수명이 긴 아카이브 등급의 BD-R XL M-DISC 포맷이 적합하며, 휘발성 메모리보다 안정적입니다. 관련 라이터와 빈 디스크 구매 정보를 제공하고 있습니다.

4일 전0
r/LocalLLaMA분석

미국이 모델 서비스 제공을 막는다면, 중국은 가중치 공개를 막을 수 있다

미국이 모델 서비스 제공을 제한할 경우, 중국 역시 최고급 OSS 모델의 가중치 공개를 막는 등의 공급망 위험에 직면할 수 있습니다. 이는 소프트웨어 개발 처리량과 자동화 기회 측면에서 장기적인 경제적 영향을 미칠 수 있습니다.

4일 전0
r/LocalLLaMA분석

MLX/OMLX/DMR을 OpenCode/Hermes/Open WebUI와 함께 수동 설정 없이 한 번에 실행하는 방법 - Harbor

Harbor의 v0.5.0 업데이트는 네이티브 서비스를 백엔드로 통합 호스팅하며, Open WebUI, OpenCode, Hermes 등 관련 서비스와 자동 연결을 지원합니다. 이 CLI는 코딩 에이전트와의 연동성을 높여 자연어 명령으로 시스템 구성 및 실행이 가능해졌습니다.

4일 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.