Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
r/LocalLLaMA 299건필터 해제
Intel의 Crescent Island PCB 유출: 대규모 Xe3P GPU, 16핀 커넥터, 160GB LPDDR5X 탑재로 HBM 부족
Intel의 차세대 데이터 센터 GPU인 Xe3P를 탑재한 'Crescent Island' PCB 설계가 유출되었습니다. 이 설계는 HBM 부족 문제를 해결하기 위해 160GB의 대규모 LPDDR5X 메모리 구성을 채택한 것이 특징입니다.
MTP KV Cache 양자화 (Quantizing) = 공짜 점심인가?
llama.cpp의 MTP(Multi-Token Prediction) 구현 시 MTP 레이어 전용 KV 캐시를 양자화할 수 있다는 점을 분석합니다. 벤치마크 결과, MTP KV 캐시 양자화가 성능 저하 없이 VRAM 효율성을 높일 수 있는 '공짜 점심'이 될 가능성을 보여줍니다.
ByteDance, 단 3B 파라미터로 거의 모든 것을 수행하려는 오픈 소스 모델 출시
ByteDance가 이미지와 비디오의 이해, 생성, 편집을 단일 프레임워크에서 수행할 수 있는 경량 멀티모달 모델인 Lance를 출시했습니다. 3B 규모의 활성 파라미터만을 사용하여 효율성을 극대화했으며, 128대의 A100 GPU를 활용해 처음부터 학습되었습니다.
G4-Meromero-31B-Uncensored-Heretic 출시: 창의적 작업을 위해 설계된 Gemma 4 31B 파인튜닝 모델 (Kld
Gemma 4 31B 모델을 기반으로 창의적인 작업을 위해 설계된 'G4-Meromero-31B-Uncensored-Heretic' 파인튜닝 모델이 출시되었습니다. 이 모델은 Safetensors와 GGUF 형식을 모두 지원하며, HuggingFace를 통해 배포됩니다.
42종의 LLM 대상 디스토피아 구축 의지 테스트 결과: 폐쇄형 모델의 안전성 한계
DystopiaBench는 42종의 LLM을 대상으로 자율 무기, 대량 감시 등 6가지 디스토피아 시나리오를 통해 모델의 윤리적 안전성을 테스트하는 오픈 소스 벤치마크입니다. 테스트 결과, 대부분의 모델이 명백한 위험은 탐지하지만 이중 용도 기술이나 정상화된 요청 뒤에 숨겨진 위험은 식별하지 못하는 한계를 보였습니다.
24GB VRAM 환경에서의 Qwen 3.6 27B 설정: 백엔드 비교, 양자화 선택 및 설정 (llama.cpp, ik_llama.cpp
RTX 3090 24GB VRAM 환경에서 Qwen 3.6 27B 모델을 구동하기 위한 최적의 설정과 백엔드 성능을 비교 분석했습니다. 테스트 결과 ik_llama.cpp 백엔드와 IQ4_KS 양자화 모델을 조합했을 때 가장 뛰어난 프리필 및 디코드 성능을 보였습니다.
Qwen3.6에서 llama.cpp MTP 지원 테스트 - RTX 5090
본 테스트는 RTX 5090 환경에서 llama.cpp를 사용하여 Qwen3.6 모델의 MTP(Multi-Turn Prompting) 기능을 검증한 내용입니다. 특히, 동일한 GGUF 파일을 사용하면서 `--spec-type draft-mtp` 플래그만 변경하여 MTP 기능 자체에 대한 영향을 분석했습니다. 테스트는 짧은 스토리와 긴 코드 생성 등 다양한 길이의 프롬프트를 사용하여 모델의 일관성과 성능을 측정했습니다.
Strix Halo Llama.cpp MTP 벤치마크: 27B는 훨씬 빨라졌고, 35B는 결과가 엇갈림
본 기사는 Strix Halo 하드웨어 환경에서 Llama.cpp를 사용하여 Qwen3.6 모델의 벤치마크 결과를 비교 분석합니다. 특히, MTP(Multi-Turn Prompting) 최적화가 적용된 버전과 기본 버전을 다양한 시나리오(15k 단일 턴 vs 5턴 연속 대화)에서 테스트했습니다. 그 결과, 27B 모델의 경우 MTP 적용이 전반적으로 속도 향상에 크게 기여했으나, 35B 모델에서는 성능 개선 폭이 미미하거나 오히려 느려지는 경향을 보였습니다.
코딩 프리미티브(coding primitive)에서의 Local Qwen 3.6 vs frontier models 비교: 단일 파일 HTML
본 글은 코딩 프리미티브 작업에 초점을 맞춰 Qwen 3.6 변체와 같은 로컬 양자화(local quants) 모델들이 최신 플래그십(frontier) 웹 기반 모델들과 비교했을 때 어느 정도의 성능을 보이는지 비교 분석한 내용입니다. 특히 라이브러리 없이 단일 HTML 파일로 사실적인 측면 주행 애니메이션을 구현하는 복잡한 코딩 작업에서, 로컬 27B 양자화 모델이 일부 플래그십 모델보다 더 자연스러운 움직임과 레이어링을 보여주며 기대 이상의 성능을 입증했습니다.
Qwen3.6-35B-A3B 및 9B가 공식적으로 public Terminal-Bench 2.0 리더보드에 진입했습니다!
Qwen3.6-35B-A3B와 9B 모델이 공식 Terminal-Bench 2.0 리더보드에 진입하며 주목받고 있습니다. 특히 little-coder × Qwen3.6-35B-A3B 조합은 Gemini CLI 및 Terminus 2 등 경쟁 모델보다 높은 순위를 기록했습니다. 이 성과는 로컬 모델들이 어려운 에이전틱 벤치마크에서도 측정 가능한 수준임을 입증하며, 오픈 소스 커뮤니티의 기여를 강조합니다.
많은 로컬 LLM들이 겪는 "미래는 허구이다" 문제
많은 로컬 LLM들이 지식 차단 날짜 이후의 사건을 '허구' 또는 '풍자'로 인식하는 경향이 있습니다. 이러한 문제는 모델이 도구를 사용함에도 불구하고 지속되는 경우가 많습니다. 본 사례는 2026년 이란 전쟁에 대한 웹 검색 결과가 실제 뉴스가 아닌 지정학적 시뮬레이션의 일부임을 보여주며, LLM이 정보의 출처와 성격을 정확히 판단하는 데 어려움을 겪고 있음을 지적합니다.
Jetson Orin NX SUPER 16GB를 기반으로 구축한 완전 오프라인 캐리어 로봇. Gemma 4 E4B, ~200ms 캐시된
Jetson Orin NX SUPER 16GB 기반의 로봇 'Sparky'는 완전히 오프라인 환경에서 구동됩니다. 이 로봇은 llama.cpp와 Q4_K_M 방식의 Gemma 4 E4B 모델을 사용하여, 캐시된 TTFT 약 200ms 및 지속 속도 14-15 tok/s를 달성했습니다. STT(SenseVoiceSmall)와 TTS(Piper), 그리고 PixiJS 얼굴 구현 등 다양한 온디바이스 컴포넌트를 통합했으며, 특히 프롬프트 구조 최적화를 통해 캐시 안정성을 높여 성능을 크게 개선한 것이 핵심 성과입니다.
소형 모델이 자신의 실수를 바탕으로 학습하게 해보았습니다. HumanEval에서 80%에 도달했고 수학에서 GPT-3.5를 이겼습니다.
글쓴이는 베이스 모델이 인간의 개입 없이 자신의 실수와 교정 과정을 통해 코딩 능력을 향상시키는 독창적인 방법을 개발했습니다. 이 방법은 모델에게 코딩 문제 생성 및 풀이를 시키고, (실패한 시도, 성공한 시도) 쌍을 저장하여 파인튜닝하는 방식입니다. 초기에는 Qwen 2.5 7B base에서 HumanEval 점수가 크게 상승했으며, 이후 Llama 3.2 3B와 Qwen 3 4B 등 다양한 모델 제품군에서도 성능 향상이 관찰되어 이 방법이 범용적임을 입증했습니다. 특히, 모델의 학습 신호가 단순히 데이터 형식에 의존하는 것이 아니라 '실수와 교정'이라는 구체적인 피드백 과정에서 온다는 것을 확인했으며, 이는 RLHF(Reinforcement Learning from Human Feedback) 버전과 근접한 성능을 달성하게 했습니다.
Nvidia에서 NVFP4 Kimi2.6 및 Kimi 2.5를 출시했습니다
NVIDIA가 Moonshot AI의 Kimi-K2.6 및 Kimi 2.5 모델을 NVFP4 포맷으로 양자화하여 출시했습니다. 이 모델들은 최적화된 Transformer 아키텍처를 사용하는 자기회귀 언어 모델이며, Model Optimizer를 통해 양자화되었습니다. 제공된 벤치마크 결과에 따르면, NVFP4 버전은 Baseline (INT4) 대비 전반적으로 높은 성능을 보여주며 상업적/비상업적 용도로 사용 가능합니다.
나의 첫 공식 AI 연구 논문이 SSRN에 채택되었습니다
작성자의 연구 논문 'Stable Training with Adaptive Momentum (STAM)'이 SSRN에 공식적으로 채택되었습니다. 이 논문은 딥러닝 학습을 위한 새로운 최적화 알고리즘을 제안하며, 기존 인기 옵티마이저 대비 우수한 성능과 안정성을 입증했습니다. 특히 일부 실험에서는 연산 학습 비용을 최대 50%까지 절감하는 성과를 거두었습니다.
Intel Optane Persistent Memory를 사용한 컴퓨터 빌드 - 1조 개의 파라미터를 가진 모델을 초당 4개 이상의 토큰으로
본 글은 Intel Optane Persistent Memory(PMem)를 활용하여 1조 개의 파라미터를 가진 대규모 언어 모델(Kimi K2.5)을 로컬 환경에서 초당 약 4 토큰 속도로 구동한 빌드 경험을 공유합니다. PMem의 거대한 용량(768GB)과 메모리 모드를 활용하여, GPU에 담기 어려운 초대형 모델의 희소 전문가 가중치(sparse experts weights)를 시스템 RAM처럼 처리할 수 있었습니다. 이 빌드는 제한된 예산으로 프런티어급 모델을 구동하는 성공적인 사례이며, 향후 로컬 추론 혁신 방향에 대한 통찰을 제공합니다.
AIDC-AI/Ovis2.6-80B-A3B · Hugging Face
Ovis2.6-80B-A3B는 Multimodal Large Language Model (MLLM)의 최신 버전으로, Mixture-of-Experts (MoE) 아키텍처를 도입하여 낮은 서빙 비용으로 높은 성능을 구현했습니다. 이 모델은 64K 토큰 컨텍스트 창과 최대 2880×2880 해상도 지원을 통해 긴 문서 및 고해상도 이미지 처리에 탁월하며, 'Think with Image' 기능을 통해 능동적인 시각적 추론 능력을 갖추었습니다.
--n-cpu-moe로 부분 오프로드된 모델의 프롬프트 처리 속도를 획기적으로 개선하기
llama.cpp를 사용하여 RTX 3090 환경에서 gpt-oss-120b 모델을 구동할 때, --n-cpu-moe 설정을 높여 MoE 레이어를 CPU로 오프로드하면 더 큰 ubatch 크기를 사용할 수 있습니다. 이를 통해 프롬프트 처리(prefill) 속도를 최대 8.7배까지 획기적으로 향상시킬 수 있으나, 토큰 생성 속도는 약간 감소하는 트레이드오프가 발생합니다.
Unsloth에서 MTP 사용하기
Unsloth에서 MTP(Model Type Preservation) 레이어를 보존한 모델이 출시되었으며, 관련 Hugging Face 링크를 통해 접근할 수 있습니다. 하지만 현재로서는 MTP 기능의 완전한 활용을 위해 llamacpp PR을 확인하고 직접 빌드하는 과정이 필요합니다. Unsloth는 모델 카드에 MTP 사용 방법을 안내하고 있으므로 이를 참고해야 합니다.
실제 트랜스포머 언어 모델을 스톡 게임보이 컬러에서 구동하는 모습!
본 기사는 외부 연결 없이 오직 스톡 게임보이 컬러(Game Boy Color) 하드웨어만으로 트랜스포머 언어 모델을 구동하는 과정을 다룹니다. Andrej Karpathy의 TinyStories-260K를 INT8 가중치와 고정 소수점 연산으로 변환하여 부동 소수점 없이 실행 가능하게 만들었으며, 이 모델은 게임보이 ROM과 카트리지에 저장됩니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.