Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
r/LocalLLaMA 294건필터 해제
vLLM, nightly 버전에 Qwen3+를 위한 새로운 스트리밍 파서(streaming parser) 추가
vLLM nightly 버전에 Qwen3+ 모델을 위한 새로운 스트리밍 파서가 추가되었습니다. 이를 통해 Qwen3.6-27b 모델의 대화 중단 현상과 스트리밍 도구 호출 실패 문제를 해결하여 에이전트 워크플로우의 안정성을 높였습니다.
HF 해커톤 제출물
LLM 기반의 형식 검증 에이전트인 Q.E.D를 소개합니다. Lean 4를 활용하여 증명 전략을 제안하고, 커널을 통해 실시간으로 검증하며 환각 없는 수학적 증명을 수행합니다.
AWQ는 영리하게 양자화하지 않습니다. 단지 반올림 오차를 안전한 곳으로 옮길 뿐입니다
AWQ 양자화 방식의 수학적 원리를 분석하여, AWQ가 단순히 반올림 오차를 입력 활성화 값에 따라 재배치하는 방식임을 설명합니다. 재매개변수화를 통해 큰 활성화 값을 가진 채널의 오차를 줄이는 원리와 주의사항을 다룹니다.
TrueNAS Scale에서 llama-server 실행하기
TrueNAS Scale 환경에서 llama-server를 실행할 때 발생하는 NVIDIA 드라이버 설치 및 CUDA 버전 호환성 문제를 해결하는 방법을 다룹니다. GPU 인식 문제와 CUDA 순방향 호환성 오류를 해결하기 위한 구체적인 설정법을 제공합니다.

나의 탈출극을 지켜보세요 - LLM이 당신이 직접 만든 방탈출 게임을 해결하려고 시도합니다
사용자가 직접 만든 2D 방탈출 게임을 LLM이 플레이할 수 있도록 설계된 로컬 실행형 샌드박스 게임 프로젝트입니다. 동작 동사 기반의 설계를 통해 모델이 환경을 물리적 관점에서 추론하도록 유도합니다.
archex: AI 에이전트를 위한 로컬 우선(local-first), 결정론적(deterministic) 코드 컨텍스트 — API 키 불필요
archex는 AI 코딩 에이전트를 위해 로컬 우선 방식의 결정론적 코드 컨텍스트를 제공하는 도구입니다. API 키나 외부 호스팅 없이 사용자의 로컬 하드웨어에서 검색 파이프라인을 실행하여 보안과 재현성을 보장합니다.

React Native ExecuTorch에서 이제 Gemma 4를 실행할 수 있습니다 (Vulkan 및 MLX 가속 지원)
React Native 환경에서 Gemma 4를 실행할 수 있는 ExecuTorch 통합 소식이 발표되었습니다. Android의 Vulkan과 Apple Silicon의 MLX 가속을 지원하여 오프라인 GPU 가속이 가능합니다.
Tower-Plus-72B-Ultra-Uncensored-Heretic: 원본 모델의 작문 품질과 다국어 능력을 향상시키기 위한
Tower-Plus-72B-Ultra-Uncensored-Heretic 모델이 공개되었습니다. 이 모델은 다국어 작업과 검열이 없는 번역 작업에 최적화되어 있으며, 원본 모델의 작문 품질과 다국어 능력을 향상시킨 것이 특징입니다.
놀라운 성능: 토큰 속도 2배 증가 + 낮은 VRAM 요구량의 KV 캐시 구현 - Qwen 27B
Qwen 27B 모델을 대상으로 토큰 생성 속도를 2배 높이고 VRAM 사용량을 줄인 새로운 KV 캐시 구현 기술을 소개합니다. 256K 컨텍스트에서도 높은 정확도를 유지하며 단일 RTX 3090 환경에서 효율적인 추론이 가능합니다.
더 많은 QAT 관련 내용과 까다로운 문제들
Gemma 4 모델의 QAT(양자화 인식 학습)를 적용한 GGUF 파일 생성 프로세스와 그 결과에 대해 설명합니다. 오차를 최소화하기 위해 F32 정밀도를 사용하여 대칭/비대칭 양자화를 결정하는 새로운 패치 방식을 제안합니다.
프론티어 모델로 계획을 세우고 대부분의 토큰은 로컬에서 실행하는 에이전트 (나의 dual-3090 시스템을 위해 구축함)
프론티어 모델의 추론 능력과 로컬 모델의 효율성을 결합한 3단계 계층형 에이전트 구축 사례를 소개합니다. Codex로 계획을 세우고 Qwen 등 로컬 모델로 실제 작업을 수행하며, 결정론적 검증을 통해 에이전트의 신뢰성을 높였습니다.
Anthropic/OpenAI의 IPO 신청이 오픈 모델 생태계에 좋은 이유 (의견)
Anthropic과 OpenAI의 IPO 추진이 AI 시장의 거품을 시험하는 계기가 될 것이며, 수익성 압박으로 인한 가격 인상이 오픈 모델 생태계의 성장을 촉진할 것이라는 분석입니다.
클라우드 API (DeepSeek API, GLM API 등) 주제와 토론은 강력하게 지양하고 규제해야 합니다. 이곳은 LOCAL 우선입니다.
클라우드 API의 저렴한 가격보다 데이터 보안과 제어권을 위해 로컬 인프라 구축을 우선시해야 한다는 주장입니다. 상용 API 서비스의 스텔스 마케팅을 경계하고, 개인 소유의 하드웨어를 통한 독립적인 AI 환경 구축을 강조합니다.
슈뢰딩거의 프로그래밍 (Schrödinger's Programming)
비전공자가 Gemini CLI를 활용해 복잡한 UI 스크립트를 작성하며 겪은 시행착오와 성공 사례를 다룹니다. 전문 용어 정리와 보충 프롬프트(Supplementary Prompt) 전략을 통해 문제 해결 시간을 획기적으로 단축하는 방법을 제시합니다.

Apple Silicon에서 잘 작동하도록 EXL3를 포팅했습니다 - PonyExl3
CUDA 의존성이 높은 EXL3 코덱을 Apple Silicon의 Metal 환경에서 실행할 수 있도록 포팅한 PonyExl3 프로젝트를 소개합니다. M1/M5 Max 환경에서 높은 추론 속도와 효율적인 메모리 관리를 구현했습니다.
Qwen-3.6-27B 및 Gemma-4-31B의 테스트 시간 연산(test-time compute)을 확장하여 코드 최적화 및 속도 향상에서
Qwen-3.6-27B와 Gemma-4-31B 모델의 테스트 시간 연산(test-time compute)을 확장하여 코드 최적화 성능을 높이는 새로운 스캐폴드 연구를 소개합니다. 반복적인 브랜치 탐색과 솔루션 풀을 통해 모델이 로컬 미니마에 빠지지 않고 최적의 알고리즘을 찾도록 설계되었습니다.
ZONOS2: 8B 파라미터로 실시간 TTS를 구현하고 높은 충실도의 음성 복제 기능 제공
Zyphra가 8B 파라미터 규모의 차세대 실시간 TTS 모델인 ZONOS2를 오픈 소스로 공개했습니다. Sparse MoE 구조를 통해 높은 품질과 빠른 속도를 동시에 달성하며, 뛰어난 음성 복제 성능을 제공합니다.
탈중앙화된 모델 공유에 대한 몇 가지 생각: 어떤 모델을 어떻게 공유해야 할까?
LLM 접근성 제한에 대비하여 오픈 모델을 안전하게 배포하기 위한 탈중앙화된 모델 공유 방식을 제안합니다. 원본 베이스 모델의 우선적 유통과 다운로드 크기 최적화를 통한 커뮤니티 참여 유도를 핵심으로 합니다.
GLM 5.2 출시 - 다음 주에 오픈 웨이트 (Open Weights) 공개 예정. 나의 원샷 (One-shot) Pac-Man 테스트
GLM 5.2 모델의 출시 소식과 함께 원샷(One-shot) 프롬프팅을 통한 Pac-Man 게임 구현 테스트 결과를 공유합니다. 모델의 추론 능력과 코드 생성 성능을 분석하며, 미세한 버그는 후속 프롬프트로 쉽게 해결 가능함을 보여줍니다.
Supra1.5 모델 제품군 출시!
SupraLabs가 컨텍스트 윈도우가 5배 확장된 Supra-1.5-50M 모델 제품군을 출시했습니다. Base, Instruct, GGUF 버전을 포함하며, 지속적 사전 학습을 통해 성능을 개선한 실험적 모델입니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.