Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
r/LocalLLaMA 295건필터 해제
소수 의견: 예산이 한정적이라면 유연한 코드보다 경직된 코드가 더 낫다
한정된 GPU 리소스 환경에서 자율적인 에이전트 파이프라인을 구축하려던 시도가 실패한 후, 경직된 Python 코드로 워크플로우를 제어하는 방식이 더 안정적임을 경험한 사례입니다. 모델에게 추론을 맡기기보다 엄격한 스크립트로 로직을 관리할 때 시스템의 신뢰성이 높아짐을 강조합니다.
단 한 문장으로 로컬 LLM을 사용하여 화면 모니터링하기! 무료, 오픈 소스 및 로컬 방식
Observer 프레임워크에 MCP를 통합하여 단 한 문장의 명령으로 화면을 모니터링하는 마이크로 에이전트 구현 방법을 소개합니다. 로컬 LLM(Gemma-4 등)을 활용해 별도의 설치 없이 웹이나 로컬 환경에서 자율적인 모니터링 및 알림 기능을 수행할 수 있습니다.
nvidia/diffusiongemma-26B-A4B-it-NVFP4 · Hugging Face
Google DeepMind가 개발한 DiffusionGemma 26B A4B IT는 이산 확산 방식을 사용하는 오픈 웨이트 멀티모달 모델입니다. MoE 아키텍처와 양자화 기술을 통해 고속 멀티모달 텍스트 생성을 지원하며, 다양한 언어와 복잡한 추론 작업을 수행할 수 있습니다.
MTP 하이퍼파라미터 탐색 (MTP hyperparameter search)
Strix Halo 환경에서 Qwen3.6 27B 모델을 대상으로 MTP 및 투기적 디코딩의 최적 하이퍼파라미터를 Optuna로 탐색한 결과입니다. 단순 파라미터 대비 초당 토큰 생성 속도가 약 6% 개선되었습니다.
Agent Harness 벤치마킹
본 글은 프로그래밍 과정을 생각의 점진적 외현화로 정의하며, 코딩 에이전트가 토큰을 소비하고 추론하는 과정을 상세히 설명합니다. 궁극적으로 Agent Harness 벤치마킹 시스템은 복잡한 솔루션 파이프라인을 구분하고 평가하는 핵심 접착제 역할을 할 것으로 전망됩니다.
Transformer를 다루기에 제가 할애할 수 있는 것은 아주 작은 규모뿐입니다
파라미터가 1,000만 개 이하인 소규모 모델의 효율성을 높이기 위해 Attention과 FFN을 결합한 새로운 아키텍처 'Silia'를 제안합니다. 기존 GPT-2 아키텍처 대비 훨씬 적은 파라미터로도 대등한 성능을 달성할 수 있음을 보여줍니다.
음성 전사 모델을 위한 ASR biasing 구현 방법 [오픈 소스]
음성 받아쓰기 앱 개발 과정에서 특정 단어의 인식률을 높이는 ASR biasing 기술의 구현 방법을 소개합니다. OpenAI, Groq, Deepgram 등 다양한 API 제공업체별 구현 방식의 차이점과 오픈 소스 프로젝트 활용법을 다룹니다.
Cognitor: 오픈 소스 시맨틱 검색 엔진. 대상 폴더의 콘텐츠를 자동으로 청킹(Chunking), 임베딩(Embedding) 및
Cognitor는 폴더 내 콘텐츠를 자동으로 청킹, 임베딩 및 인덱싱하여 시맨틱 검색을 지원하는 오픈 소스 엔진입니다. 벡터 데이터베이스와 백그라운드 워커를 통해 AI 에이전트나 애플리케이션의 백엔드로 활용할 수 있습니다.
SupraLabs가 Supra1.5-50M Base (Experimental)를 출시했습니다!
SupraLabs가 Supra-50M-Base를 기반으로 컨텍스트 윈도우를 확장한 실험적 모델 Supra1.5-50M-base-exp를 출시했습니다. RoPE 스케일링을 통해 컨텍스트 길이를 1,024에서 5,120 토큰으로 늘렸으며, 향후 SFT 및 RL 작업을 위한 베이스 모델 구축을 목표로 합니다.

Voice-to-voice 챗봇 업데이트
실시간 대화가 가능한 로컬 Voice-to-voice 챗봇 프로젝트의 업데이트 소식입니다. SSE 스트리밍을 통해 실시간성을 확보했으며, 대화 중단 기능과 문맥 유지 기능을 갖추고 있습니다.
4x7900XTX 환경에서의 DiffusionGemma 4 구동
4개의 AMD Radeon RX 7900 XTX GPU 환경에서 DiffusionGemma 26B 모델을 vLLM을 통해 구동한 성능 테스트 결과입니다. 생성 시 100 tps, 전체 처리 속도는 약 45-60 t/s를 기록했습니다.
PSA: llama.cpp에서 "threads" 인자 테스트해 보세요 (+제 경우 80% 성능 향상)
llama.cpp 사용 시 '--threads' 인자 조절을 통해 Gemma 4 모델의 추론 성능을 최대 80% 향상시킨 실험 결과입니다. 하이브리드 CPU 환경에서 P-core만 사용하는 대신, 적절한 스레드 수를 설정하는 것이 성능 최적화에 핵심임을 보여줍니다.
AMD ROCm 환경에서의 Step-3.7-Flash 사용 시 ~94k 이상의 긴 컨텍스트 손상 및 추론 토큰 예산 설정 필요성
AMD ROCm 환경에서 Step-3.7-Flash 모델 사용 시 발생하는 긴 컨텍스트 손상 문제와 추론 예산 설정 최적화 방법을 다룹니다. ROCm의 빠른 속도를 활용하면서도 컨텍스트를 90k로 제한하고, llama.cpp의 추론 예산을 설정하여 안정적인 답변을 얻는 실용적인 가이드를 제공합니다.
신규 모델 출시: Nex-N2 Pro 397B 및 Nex-N2 Mini 35B
Qwen3.5를 미세 조정(Fine-Tuning)하여 개발된 Nex-N2 Pro 397B 및 Nex-N2 Mini 35B 모델이 출시되었습니다. 해당 모델들은 우수한 벤치마크 성능을 보여주고 있습니다.
Triple GPU 환경에서의 Gemma 4 모델 벤치마크
Triple Nvidia GTX-1070 GPU 환경에서 Gemma 4 모델의 추론 성능을 벤치마크한 결과입니다. 다양한 모델 크기와 양자화 방식에 따른 토큰 생성 속도 및 효율성을 측정하였습니다.
로컬 환경 구축을 시작한 지 단 이틀 만에 151달러를 절약했습니다
로컬 LLM 환경 구축을 통해 API 비용을 획기적으로 절감한 사례를 소개합니다. 작성자는 이틀간 5,000만 토큰을 사용하며 Claude Sonnet 대비 약 151달러를 절약했습니다.
다양한 Gemma 및 Qwen 양자화(Quantization)의 정확도를 비교하는 인위적인 테스트
Gemma 및 Qwen 모델의 다양한 양자화(Quantization) 방식에 따른 정확도를 산술, 역사 지식, 주의력 테스트를 통해 비교 분석한 결과입니다. 모델 크기와 양자화 기법(QAT, UD 등)이 성능에 미치는 영향을 실험적으로 보여줍니다.
MTPLX V1: MLX MTP 모델 실행 및 생성을 위한 Swift 앱 (Qwen 3.6 27B에서 2배 빠른 TPS)
MLX 기반의 MTP(Multi-Token Prediction) 모델을 온디바이스로 실행할 수 있는 Swift 네이티브 Mac 앱 MTPLX V1이 출시되었습니다. Qwen 3.6 27B 모델 기준 기존 대비 2배 이상의 TPS 향상을 제공하며, 모델 변환 도구인 Forge와 실시간 성능 대시보드를 포함합니다.
InfiniteKV 오픈 소스 공개: 오래된 토큰을 삭제하는 대신 104바이트 검색 가능한 레코드로 RAM 또는 디스크에 저장하는 KV 캐시.
InfiniteKV는 긴 컨텍스트 처리를 위해 KV 캐시를 압축하여 RAM이나 디스크에 저장하는 오픈 소스 기술입니다. 기존의 슬라이딩 윈도우 방식처럼 토큰을 삭제하는 대신, 104바이트의 검색 가능한 레코드로 압축하여 모델이 과거 정보를 정확히 참조할 수 있게 합니다.
주말 동안 Apodex 4b를 사용해 본 후기와 35b mini에 대한 짧은 살펴보기
Apodex 1.0 컬렉션의 소형 모델(4B, 35B mini)에 대한 로컬 구동 테스트 후기입니다. 이 모델들은 검색 에이전트로서 쿼리 계획 및 도구 호출 능력을 갖추도록 설계되었으며, 특히 4B 모델은 체급 대비 낮은 환각률과 뛰어난 다단계 질문 해결 능력을 보여줍니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.