본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

r/LocalLLaMA 295필터 해제

r/LocalLLaMA분석

Supra1.5 모델 제품군 출시!

SupraLabs가 컨텍스트 윈도우가 5배 확장된 Supra-1.5-50M 모델 제품군을 출시했습니다. Base, Instruct, GGUF 버전을 포함하며, 지속적 사전 학습을 통해 성능을 개선한 실험적 모델입니다.

3일 전0
r/LocalLLaMA분석

Llama 3.2, Phi 4, Qwen3, Gemma 4를 에이전트 루프에서 벤치마킹한 결과: 루프를 2회로 제한했을 때 성능이 17%

Llama 3.2, Phi-4, Qwen3, Gemma 4 등 소형 LLM을 대상으로 에이전트 루프 내 성능을 벤치마킹한 결과, 루프 횟수를 2회로 제한했을 때 성능이 오히려 향상됨을 발견했습니다. 소형 모델이 반복적인 자기 수정 과정에서 기존의 올바른 코드를 망가뜨리는 '자기 파괴 현상'이 주요 원인으로 분석되었습니다.

3일 전0
r/LocalLLaMA분석

Command A Plus GGUF 파일 게시

llama.cpp에 Command A Plus 및 North Mini Code 지원이 추가되었습니다. 작성자가 직접 Command A Plus 모델의 최신 GGUF 파일을 변환 및 양자화하여 게시했습니다.

3일 전0
r/LocalLLaMA분석

매우 개인화된 macOS 앱을 제작하는 macOS 앱을 만들었습니다. Gemma 4 E2B와 같이 작은 모델에서도 작동합니다.

Ironsmith는 Gemma 4와 같은 소형 모델을 활용하여 개인화된 macOS 앱을 생성하는 오픈 소스 프로젝트입니다. 커스텀 에이전틱 루프와 결정론적 복구 과정을 통해 저사양 기기에서도 온디바이스로 앱 제작이 가능합니다.

3일 전0
r/LocalLLaMA분석

Q4_0 양자화 시 스케일(scale) 자체 대신 스케일에 대한 인덱스를 저장하여 스케일 크기를 약 31% 감소시킴 (작은 이득이지만 흥미로운

양자화 과정에서 발생하는 스케일(scale) 값의 중복성을 활용하여 저장 공간을 절약하는 새로운 아이디어를 제안합니다. 스케일 값 자체 대신 인덱스를 저장함으로써 Qwen 3.6 27B 모델 기준 약 318MB의 용량을 줄일 수 있습니다.

3일 전0
r/LocalLLaMA분석

로컬 LLM의 내부 작동 원리를 이해하기 위해 로컬 코딩 에이전트 하네스 앱을 직접 제작하며 배운 점

로컬 LLM의 저수준 작동 원리를 이해하기 위해 제작된 PyQt6 기반의 데스크톱 코딩 에이전트 'Sulfur'를 소개합니다. llama.cpp, Ollama 등을 백엔드로 지원하며 하드웨어 최적화 설정을 직관적으로 제어할 수 있는 오픈 소스 프로젝트입니다.

3일 전0
r/LocalLLaMA분석

언젠가 이런 날이 올 줄 알았기에 로컬 AI 어시스턴트를 구축했습니다. 어제 일이 정말 실감 나게 다가왔네요.

Anthropic 서비스 중단 사태를 계기로 구축한 Gemma 4b 기반의 로컬 AI 개인 비서 'Bantz'를 소개합니다. 이 시스템은 Gmail 요약, 캘린더 연동, 웹 검색 및 데스크톱 제어 기능을 갖춘 자율형 에이전트입니다.

3일 전0
r/LocalLLaMA분석

Heretic Grimoire 소개: 검열 없는 모델을 영구적으로 사용할 수 있게 해주는, 삭제 저항성이 있는 로컬 우선 백업 시스템

Heretic Grimoire는 검열 없는 로컬 LLM 모델을 영구적으로 보존하기 위한 삭제 저항성 백업 시스템입니다. 9KB의 reproduce.json 파일을 통해 모델 재현에 필요한 모든 정보를 저장하여, 플랫폼 삭제 위험에 대비합니다.

3일 전0
r/LocalLLaMA분석

Mac (M3 Max, 96GB)에서 Deepseek 4 flash를 실행할 수 있습니다

M3 Max(96GB) 환경에서 특정 엔진과 GGUF 파일을 사용하여 Deepseek 4 flash 모델을 실행하는 방법을 소개합니다. SSD 스트리밍과 Metal 할당량 조절을 통해 RAM 용량 한계를 극복하고 구동하는 기술적 팁을 다룹니다.

3일 전0
r/LocalLLaMA분석

가장 좋은 로컬 VLM은 무엇인가? 벤치마크 결과 2026년 6월

2026년 6월 기준 최신 로컬 VLM(Vision Language Model)들의 성능을 벤치마크한 결과입니다. Qwen3-VL 4B가 속도 면에서 우수했으며, 다양한 모델의 아키텍처와 실행 환경을 비교 분석했습니다.

3일 전0
r/LocalLLaMA분석

Aionforge Memory - 에이전트를 위한 장기 기억 (Long Term Agent Memory)

Aionforge Memory는 에이전트의 장기 기억을 위해 설계된 Rust 기반 메모리 레이어입니다. Selene DB를 활용하여 에피소드, 사실, 기술 등 다양한 데이터를 저장하며, 벡터 및 그래프 검색을 통해 최적의 컨텍스트를 제공합니다.

3일 전0
r/LocalLLaMA분석

왜 4-bit GPTQ는 모델의 Perplexity를 망가뜨리지 않을까요? 보정 수학 공식을 처음부터 직접 유도해 보았습니다

GPTQ 양자화 과정에서 가중치 손실을 보상하기 위해 주변 가중치를 업데이트하는 수학적 원리를 상세히 분석합니다. 역 헤시안(Inverse Hessian)과 라그랑주 승수법을 사용하여 업데이트 규칙을 유도하고, 이를 PyTorch 코드로 구현하는 과정을 다룹니다.

3일 전0
r/LocalLLaMA분석

lgtmaybe 구축하기: 모든 모델을 위한 PR 리뷰어

Ollama를 포함한 다양한 LLM과 연동 가능한 오픈 소스 AI 코드 리뷰어 구축 사례를 소개합니다. 5가지 카테고리의 병렬 리뷰와 오탐 제거를 위한 리플렉션 패스, 보안을 위한 비밀 정보 삭제 기능을 제공합니다.

3일 전0
r/LocalLLaMA분석

Hermes Agent 벤치마킹을 위한 Jetson Orin NX 빌드

Jetson Orin NX를 활용하여 Hermes Agent 벤치마킹을 위한 소형 서버를 구축한 사례입니다. Gemma 4 26B 모델과 MTP(Multi-Token Prediction) 기술을 적용하여 긴 컨텍스트 환경에서의 성능과 속도를 최적화했습니다.

3일 전0
r/LocalLLaMA분석

Apple, Apple Silicon을 위한 새로운 온디바이스 추론 엔진 발표

Apple이 CoreML의 차세대 대체제인 CoreAI를 발표했습니다. 이는 Apple Silicon에 최적화된 온디바이스 추론 엔진으로, 기존 CoreML의 한계를 넘어 대규모 파라미터 모델과 확장된 연산 지원을 목표로 합니다.

3일 전0
r/LocalLLaMA분석

Cohere North Mini Code 1.0

Cohere에서 30B 파라미터 규모의 코딩 특화 모델인 North Mini Code 1.0을 출시했습니다. 이 모델은 특정 코딩 인덱스에서 Gemma 4 26B보다 높은 경쟁력을 보여줍니다.

3일 전0
r/LocalLLaMA분석

Furiosa AI의 소비자 시장 추론 칩 판매는 로컬 LLM의 게임 체인저가 될 것

한국 스타트업 Furiosa AI의 추론 전용 칩 RNGD가 로컬 LLM 시장의 게임 체인저가 될 가능성을 분석합니다. 높은 메모리 대역폭과 VRAM을 갖춘 이 칩이 llama.cpp 등 오픈소스 생태계와 협력한다면 강력한 경쟁력을 가질 것으로 전망합니다.

3일 전0
r/LocalLLaMA분석

Jetson Orin Nano Super에서의 Bonsai LM (1-bit 및 1.58-bit LLM) 벤치마킹

Jetson Orin Nano Super에서 1-bit 및 1.58-bit Bonsai LM 모델의 성능을 벤치마킹한 결과입니다. 다양한 전력 모드에서 토큰 생성 속도, 에너지 효율성(tok/J), 지연 시간 및 발열 상태를 심층 분석했습니다.

4일 전0
r/LocalLLaMA분석

Lemonade v10.7 출시 및 프로젝트 조직 업데이트

Lemonade v10.7이 출시되어 옴니모달 채팅, 자동 튜닝, 교차 벤더 지원 기능이 추가되었습니다. 다양한 백엔드와 모델을 결합하여 로컬 AI 환경의 성능과 호환성을 대폭 강화했습니다.

4일 전0
r/LocalLLaMA분석

FlashMemory-DeepSeek-V4: Lookahead Sparse Attention을 통한 초장기 컨텍스트의 Lightning

DeepSeek-V4 기반의 FlashMemory-DeepSeek-V4는 Lookahead Sparse Attention(LSA)을 통해 초장기 컨텍스트 서빙 시 발생하는 GPU 메모리 병목을 해결합니다. 분리형 학습 전략을 사용하여 백본 모델 없이도 인덱서를 독립적으로 학습할 수 있으며, KV 캐시 점유율을 획기적으로 낮추면서 성능을 유지합니다.

4일 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.