Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
r/LocalLLaMA 299건필터 해제
🚀PP-OCRv6 공식 출시!
PaddleOCR에서 새로운 OCR 모델 시리즈인 PP-OCRv6를 공식 출시했습니다. 이 모델은 1.5M부터 34.5M 파라미터까지 다양하게 확장되어, 브라우저부터 서버까지 광범위한 환경에 최적화되었습니다. 특히 OpenVINO 사용 시 CPU 추론 속도가 최대 5.2배 향상되었으며, PCB/CAD 도면 등 다양한 신규 시나리오를 지원합니다.
대용량 모델을 저사양 RAM 환경에서 구동해 본 결과
저사양 노트북 환경(4코어 i7, 2.6 GiB DDR4 RAM)에서 LLM 구동 가능성을 테스트한 결과, Gemma 4 12B와 StepFun Flash 3.7 198B MoE 등 대용량 모델을 성공적으로 실행했습니다. 이는 고사양 GPU나 많은 VRAM 없이도 다양한 환경에서 LLM을 구동할 수 있음을 시사합니다.
xdna-top: Strix Halo (Ryzen AI Max)용 통합 NPU+iGPU 터미널 모니터 — 드디어 NPU 작동 확인
Strix Halo (Ryzen AI Max) 장치에서 NPU 활동을 모니터링하는 터미널 도구 xdna-top이 소개되었습니다. 이 도구는 iGPU 사용량과 컨텍스트별 NPU 제출/완료 카운터를 하나의 TUI에서 보여주어, NPU의 실제 작동 여부를 확인할 수 있게 합니다.
가이드: 단일 GPU에 LM Studio와 ComfyUI를 OpenWebUI로 함께 사용하기
본 가이드는 단일 GPU 서버 환경에서 ComfyUI와 LM Studio를 OpenWebUI로 통합하여 사용하는 방법을 안내합니다. VRAM 클린업 노드 사용, LM Studio의 서버 기능 활성화 및 특정 설정 변경(GPU 메모리 오프로드 제한 토글 켜기) 등 구체적인 절차를 설명하며, 성공적으로 시스템을 구축하는 과정을 공유하고 있습니다.
Refiner: ex-Hugging Face 사전 학습 팀의 로보틱스 라이브러리
ex-Huggingface 사전 학습 팀이 로보틱스 데이터 정제(refinement)를 위한 새로운 라이브러리를 공개했습니다. 이 라이브러리는 Parquet, HDF5, MCAP 등 다양한 로보틱스 포맷의 수집을 지원하며, 핸드 트래킹 및 서브태스크 주석 처리 같은 일반적인 데이터 처리 흐름도 제공합니다.
Magenta Realtime 2를 사용한 아두이노 기반 무한 음악 글리치 구현
ESP32 마이크로컨트롤러와 MacBook M4 Pro를 활용하여 실시간 음성 기반 음악 글리치 세트를 구축했습니다. MLX Whisper가 사용자의 음성을 전사하고, VAD 감지 후 Qwen 모델이 이를 분석해 드럼 추가, 장르 변경 등 다양한 도구 호출을 결정합니다.
Blackwell에서 INT8 Q/DQ가 TRT 10 + auto-FP16보다 1.8배 우수함 — 실용적인 보정(calibration) 작성기
최신 TensorRT 11 빌드는 명시적인 INT8 양자화(Q/DQ)를 강제하여, 기존 auto-FP16 방식보다 성능이 우수함을 입증했습니다. RTX 5090에서 수행된 테스트 결과, 동일 하드웨어에서 이전 대비 약 1.8배 향상된 추론 속도(71k NPS vs 39.5k NPS)를 기록하며, 최신 GPU 아키텍처의 전용 INT8 경로 활용 가능성을 보여주었습니다.

SenseNova U1, 인포그래픽 특화 파인튜닝 모델 공개
SenseNova U1은 인포그래픽 제작에 특화되도록 다중 작업 훈련을 거친 모델입니다. 이 모델은 기존 대비 IGenBench I-ACC 등 여러 지표에서 높은 성능 향상을 보여주었습니다. 이를 통해 구조화되고 시각적으로 정확한 출력을 목표로 합니다.

DeepMind가 'DiffusionGemma'를 공개하다 — 이미지 스타일 확산 모델을 통한 텍스트 생성
DeepMind가 'DiffusionGemma'라는 새로운 오픈 웨이트 모델을 공개했습니다. 이 모델은 기존의 자기회귀 방식 대신 텍스트 확산 헤드를 사용하여 전체 텍스트 블록을 한 번에 정제하고 디노이징합니다. 이를 통해 오류 수정 기능과 높은 추론 속도를 구현했으며, Gemma 4 기반의 MoE 구조를 가지지만 로컬 환경에서도 접근성이 높습니다.
Reachy Mini가 완전히 로컬(Local)로 동작합니다!
Hugging Face 팀이 Reachy Mini 로봇을 위한 완전한 로컬 대화 환경 구축 방법을 공개했습니다. 로봇 하드웨어가 없더라도 음성 에이전트를 개발할 수 있는 로드맵과 설정 가이드를 제공합니다.
PrismML이 Binary 및 Ternary Bonsai Image 4B 출시: WebGPU를 통해 브라우저에서 100% 로컬로 실행 가능한
PrismML이 WebGPU를 통해 브라우저에서 100% 로컬 실행이 가능한 Binary 및 Ternary Bonsai Image 4B 모델을 출시했습니다. 약 3GB의 가벼운 크기로 설계되었으며 Apache-2.0 라이선스를 따릅니다.
Financial Times가 Heretic에 관한 기사를 게재했습니다
Heretic 도구를 사용하여 Meta의 Llama 3.3 모델에서 가드레일을 10분 이내에 제거할 수 있음이 Financial Times를 통해 보도되었습니다. 제작자는 이 도구로 3,500개 이상의 검열 해제된 모델이 생성되었으며 1,300만 회 이상의 다운로드를 기록했다고 밝혔습니다.
V100을 사용한 Qwen3.6 27B 모델의 1000 TPS 생성 성능
NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델의 생성 성능을 테스트한 결과입니다. 단일 사용자 기준 생성 속도 80t/s, 처리 속도 3000t/s라는 높은 성능을 기록했습니다.
Qwen3.6 27B 순수 양자화: 16 GB VRAM에서 40 tok/s 달성
16GB VRAM 환경에서 Qwen3.6 27B 모델을 효율적으로 구동하기 위한 순수 양자화(pure quantization) 실험 결과입니다. MTP 버전을 통해 토큰 생성 속도 40 tok/s를 달성하며 하드웨어 제약 내 최적화 방안을 제시합니다.
G4-MeroMero-26B-A4B-it-uncensored-heretic 출시: gemma-4-26B-A4B-it의
Gemma-4-26B-A4B-it 모델을 기반으로 한 검열되지 않은(uncensored) 파인튜닝 모델인 G4-MeroMero-26B-A4B-it-uncensored-heretic가 출시되었습니다. 이전 31B 버전보다 낮은 VRAM 요구 사항과 빠른 속도를 제공하며, Safetensors 및 GGUF 형식을 지원합니다.
[신규] Supra-50M 출시!
SupraLabs가 Llama 아키텍처 기반의 소형 언어 모델인 Supra-50M을 출시했습니다. 50M 파라미터 규모임에도 200억 개의 토큰으로 학습되어 주요 벤치마크에서 경쟁력 있는 성능을 보여줍니다.
OpenCode / Pi를 사용하는 모든 분들을 위한 프롬프트 처리 (promptprocessing) 수정 사항!
OpenCode 및 Pi 사용 시 llama.cpp와 함께 발생하던 프롬프트 처리(promptprocessing) 문제를 해결하는 Pull Request 내용을 소개합니다. 이번 수정 사항을 통해 모델 추론 과정의 안정성이 향상될 것으로 기대됩니다.
Qwen3.6 27B와 llama.cpp 활용 후기
llama.cpp를 사용하여 Qwen3.6 27B 모델을 로컬 환경에서 구동한 성능 및 활용 후기입니다. RX 9070 XT GPU 환경에서 높은 응답성과 에이전트적 능력을 확인했으며, 복잡한 디버깅 작업에서 뛰어난 코드 분석 성능을 보여주었습니다.
HuggingFace 벤치마크 데이터셋에서 이제 모델 크기별 필터링이 가능합니다
HuggingFace 벤치마크 데이터셋에서 모델 크기별로 필터링할 수 있는 새로운 기능이 추가되었습니다. 이를 통해 swebenchverified와 같은 데이터셋에서 특정 파라미터 규모(예: 32B 미만) 내의 모델 성능을 효율적으로 비교하고 확인할 수 있습니다.
Artificial Analysis가 평가한 Qwen3.7 Max, 27B/35B 대기실
Artificial Analysis의 평가 결과, Qwen 3.7 Max가 모델 성능 순위 5위에 오르며 GPT 5.4 (xhigh) 및 Gemini 3.5 Flash와 경쟁할 만한 수준을 기록했습니다. Qwen 3.7 Max는 상위권 모델들과 대등한 성능을 보여주는 반면, Qwen 3.6 27B와 DSV4 Flash는 Max 모델과 일정 수준의 성능 격차를 보이고 있습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.