Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
r/LocalLLaMA 290건필터 해제
poolside/Laguna-M.1 · Hugging Face - 225B-A23B
Laguna-M.1은 에이전트 기반 코딩과 장기 작업을 위해 설계된 225B 규모의 MoE 모델입니다. 256개의 전문가를 활용한 고용량 라우팅과 글로벌 어텐션 아키텍처를 통해 강력한 코딩 에이전트 성능을 제공합니다.
rtk, headroom, 그리고 caveman을 통한 LLM 토큰 비용 절감 - 실제 워크로드 기반 절감액 측정
rtk, headroom, caveman 등 LLM 토큰 절감 도구들이 실제 Claude Code 워크로드에서 어느 정도의 비용 절감 효과를 보이는지 분석합니다. 실험 결과, 특정 페이로드에서는 높은 절감률을 보이지만 실제 청구서 기준으로는 프롬프트 캐싱과 워크로드 특성으로 인해 절감 폭이 제한적임을 확인했습니다.
mistral.rs v0.8.10에서 에이전트 스킬(Agent Skills) 실행: /v1/skills 지원 및 기타 기능!
mistral.rs v0.8.10 업데이트를 통해 OpenAI 호환 에이전트 스킬(/v1/skills) 지원이 추가되었습니다. 이제 로컬 오픈 모델에서도 프론티어 API 없이 도메인 지침과 스크립트를 실행할 수 있습니다.
8개의 LLM, 4개의 전략적 과제, 블라인드 테스트: 최상위권의 성적은 평이했다
8개의 LLM을 대상으로 4가지 전략적 과제에 대한 블라인드 테스트를 수행한 결과, 최상위권 모델들 간의 성능 격차가 매우 미미함을 확인했습니다. 특히 비용 대비 품질 측면에서 저렴한 모델이 프론티어 모델과 대등한 성능을 보여, 특정 작업에서는 고비용 모델 사용의 경제성이 낮음을 시사합니다.
Kwai-Keye/Keye-VL-2.0-30B-A3B-GGUF · Hugging Face
Keye-VL-2.0-30B-A3B는 긴 영상 이해와 에이전트 역량에 특화된 30B급 플래그십 멀티모달 베이스 모델입니다. DSA 아키텍처를 통해 256K 초장기 문맥에서도 효율적이고 정확한 추론을 제공하며, 영상 벤치마크에서 Gemini-3-Flash와 대등한 성능을 보여줍니다.
GLM-5.2에 대한 짧은 생각 (보너스: 검열 질문 답변)
GLM-5.2 모델의 API 성능과 특성을 분석한 리뷰입니다. 긴 컨텍스트에서의 일관성, 빠른 추론 속도, 그리고 불필요한 장황함이 없는 깔끔한 답변 능력을 높게 평가하며 프런티어 모델로서의 가능성을 제시합니다.
날짜 및 시간 MCP
Java MCP SDK를 사용하여 타임존 기반의 날짜와 시간을 제공하는 stateless HTTP MCP 서버를 개발했습니다. 가상 스레드를 활용해 초당 약 35,000개의 쿼리를 처리하며, LLM이 정확한 시간 정보를 가져올 수 있도록 돕습니다.
llama.cpp, API를 통한 모델 관리(다운로드 등) 지원 시작
llama.cpp가 API를 통해 모델의 로드, 언로드 및 다운로드를 지원하는 기능을 추가했습니다. 이를 통해 모델의 전체 라이프사이클을 llama.cpp만으로 관리하고 배포할 수 있는 환경이 마련되었습니다.
난이도 높은 HTML 데이터 추출 작업에 대해 2B에서 35B 크기의 모델들을 벤치마킹했습니다
HTML 데이터 추출 작업에서 2B~35B 크기의 소형 모델들을 벤치마킹한 결과입니다. Qwen3.6 27B가 가장 우수한 성능을 보였으며, Gemma4 e2b 및 e4b 모델이 대형 모델보다 뛰어난 성과를 기록했습니다.
Lemonade v10.8: 자동 메모리 관리, 클라우드 오프로드, Omni 개선 및 로컬 모델을 MCP 도구로 호출하기
Lemonade v10.8 업데이트를 통해 동적 VRAM 관리, 클라우드 오프로드, MCP 게이트웨이 기능이 추가되었습니다. 로컬 모델과 클라우드 API를 유연하게 전환하며 사용할 수 있는 로컬 우선(Local-first) 환경을 제공합니다.
주사위를 안정적으로 굴릴 수 있도록 모델을 사후 학습(Post-training) 시켰습니다
LLM이 주사위 굴리기 요청 시 특정 숫자에 편향되는 문제를 해결하기 위해 사후 학습(Post-training)을 진행했습니다. 모델이 기존의 패턴을 따르지 않고 확률적으로 탐색(Explore)할 수 있도록 만드는 강화학습적 접근법을 다룹니다.
나의 GLM-5.2-FP8 HGX-H200 SGLang Docker 배포 설정
H200 GPU 환경에서 GLM-5.2 모델을 SGLang Docker를 통해 최적화하여 배포하는 방법을 공유합니다. 실험을 통해 262k 컨텍스트와 70t/s의 성능을 달성한 설정값과 주의사항을 다룹니다.
Fable 5가 작성한 WebGPU 커널을 사용하여 브라우저에서 초당 255 토큰으로 실행되는 Gemma 4 E2B
Fable 5가 최적화한 WebGPU 커널을 통해 Gemma 4 E2B 모델을 브라우저 환경에서 초당 255 토큰의 속도로 실행할 수 있게 되었습니다. M4 Max 환경에서의 성능 데모와 함께 관련 커널 및 모델이 공개되었습니다.
Multilingual-Multimodal-NLP/LoopCoder-V2 · Hugging Face
LoopCoder-V2는 Parallel Loop Transformer(PLT)를 기반으로 한 7B 파라미터 규모의 코드 생성 모델입니다. 테스트 시간 계산 스케일링을 위해 공유된 트랜스포머 블록을 반복 적용하며, 최적의 성능을 위한 루프 횟수와 효율적인 메커니즘을 제안합니다.
TRELLIS.2가 이제 MLX에서 네이티브로 실행됩니다 (이미지 투 3D 오브젝트 모델)
Microsoft의 TRELLIS.2 이미지 투 3D 모델을 Apple Silicon에서 네이티브로 실행할 수 있는 MLX 포트를 공개했습니다. M4 Max 환경에서 다양한 해상도를 지원하며 실제 워크플로우 활용에 최적화되었습니다.
GLM-5.2는 로컬 AI의 승리입니다
753B 규모의 대형 모델인 GLM-5.2의 사양과 로컬 실행을 위한 하드웨어 요구 사항을 분석합니다. MIT 라이선스로 공개된 이 모델은 강력한 코딩 에이전트 성능과 증류(Distillation)를 통한 소형 모델 개선 가능성을 제시합니다.
자동 조사 및 자율 에이전트를 위한 SIQ-1 Qwen3.6
Qwen-35B-A3 모델을 PPO 학습을 통해 자동 조사 및 자율 에이전트용으로 최적화한 SIQ-1 모델을 소개합니다. 검증 가능한 보상을 활용한 PPO 학습의 효과를 입증하며, 주요 벤치마크에서 뛰어난 성능을 보여줍니다.
완전 로컬 홈 음성 비서를 구축하며 보낸 1년 · Fulloch
오픈 소스 모델을 활용하여 로컬 환경에서 Alexa와 유사한 홈 음성 비서를 구축하기 위한 1년간의 도전과 시행착오를 다룹니다. 무엇이 성공적이었고 무엇이 실패했는지에 대한 실질적인 리뷰를 제공합니다.
Codesk 제작: 히스토리, 모델, 워크스페이스 및 승인 기능을 갖춘 Codex용 네이티브 macOS 인터페이스
Codex의 기능을 유지하면서 macOS 네이티브 환경에서 사용할 수 있는 데스크톱 인터페이스인 Codesk를 소개합니다. 히스토리 관리, 모델 선택, 워크스페이스 및 승인 정책 관리 등 강력한 기능을 제공합니다.
기존 방식이 제대로 작동하지 않아 LLM 에이전트를 위한 메모리 레이어를 구축하는 데 8개월을 보냈습니다. 제가 배운 점은 다음과 같습니다.
LLM 에이전트의 메모리 문제를 단순 저장(Storage)이 아닌 관련성(Relevance)의 관점에서 접근하여 직접 구축한 사례를 다룹니다. HNSW 그래프 재배선, 양자화 오차 보정, 시간적 쇠퇴 모델 도입을 통해 에이전트의 기억력을 개선하는 기술적 방법론을 제시합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.