본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

r/LocalLLaMA 290필터 해제

r/LocalLLaMA분석

최근 eBay 특가 상품인 W6800(개조된 V620)의 벤치마크 결과

eBay에서 판매되는 개조된 AMD Radeon Pro W6800(V620 기반)의 성능을 벤치마크한 결과입니다. W6800 펌웨어 플래싱을 통해 디스플레이 출력을 지원하며, Vulkan 및 ROCm 백엔드를 이용한 Qwen 2.5 27B 모델의 추론 성능을 측정했습니다.

1일 전0
r/LocalLLaMA분석

RTX 5060 Ti 16GB vs RX 9060 XT 16GB

AI 서버 구축을 위해 NVIDIA RTX 5060 Ti와 AMD RX 9060 XT 16GB 모델의 성능을 비교 벤치마크한 결과입니다. 다양한 LLM 모델을 대상으로 응답 및 프롬프트 토큰 생성 속도를 측정한 데이터를 공유합니다.

1일 전0
r/LocalLLaMA분석

Llama.cpp는 확실히 LM Studio보다 빠릅니다... 몇 가지 주의사항이 있지만, 전환을 고민 중인 분들을 위해

LM Studio 대신 llama.cpp를 사용하여 로컬 LLM 에이전트 환경을 구축한 경험을 공유합니다. llama.cpp는 더 빠른 프롬프트 처리 속도와 효율적인 컨텍스트 관리를 제공하여 대규모 컨텍스트 작업에 유리합니다.

1일 전0
r/LocalLLaMA분석

Triple GPU 환경에서의 Qwen 3.6 모델 벤치마크

Triple GPU(GTX-1070 8GiB x 3) 환경에서 Qwen 3.6 모델들의 추론 성능을 벤치마크한 결과입니다. 다양한 양자화 방식(GGUF)에 따른 실행 시간과 성능 지표를 비교 분석하였습니다.

1일 전0
r/LocalLLaMA분석

질문 분류를 위한 로컬 LLM 파인튜닝 (Fine Tuning)

RAG 쿼리에 메타데이터를 제공하기 위해 로컬 Qwen 0.6B 모델을 질문 분류용으로 파인튜닝하는 실험 과정을 다룹니다.

1일 전0
r/LocalLLaMA분석

Glimmer 1 - Glint Research. 기초적인 10,000 파라미터 언어 모델

Glint Research에서 공개한 10,000 파라미터 규모의 초소형 언어 모델 Glimmer-1을 소개합니다. FineWeb-Edu 데이터셋 500K 토큰을 사용하여 학습되었으며, 표준 Llama 아키텍처를 기반으로 합니다.

2일 전0
r/LocalLLaMA분석

이전의 VibeThinker-1.5B를 3B로 확장 — 이제 프론티어급 수학 및 코딩 성능에 도달했습니다

VibeThinker-1.5B를 3B 규모로 확장하여 수학 및 코딩 분야에서 프론티어급 성능을 달리는 모델을 공개했습니다. 소형 모델(SLM)이 검증 가능한 추론 영역에서 스케일링 법칙을 보완할 수 있음을 입증했습니다.

2일 전0
r/LocalLLaMA분석

AIME 2026에서 94.3점을 기록한 3B 모델 - VibeThinker-3B

Weibo AI가 출시한 VibeThinker-3B는 소규모 모델임에도 불구하고 AIME 2026에서 94.3점을 기록하며 거대 모델과 대등한 성능을 보였습니다. 초최적화된 학습 파이프라인을 통해 수학과 코딩 분야에서 압도적인 벤치마크 수치를 증명했습니다.

2일 전0
r/LocalLLaMA분석

Pi + Docker Sandbox + 로컬 LLM (llama.cpp 또는 MLX)

Docker Sandbox를 활용하여 로컬 LLM(llama.cpp, MLX)을 호스트 환경으로부터 격리하여 실행하는 두 가지 가이드를 제공합니다. 모델 서버는 호스트 GPU를 사용하되, Pi는 마이크로 VM 내에서 추론 엔드포인트만 노출되도록 설계되었습니다.

2일 전0
r/LocalLLaMA분석

Qwen3.6 27B 양자화 모델 (quants)

Qwen3.6 27B 모델의 양자화 수준(Q8 vs IQ3 XXS)에 따른 코딩 성능 차이를 비교 실험했습니다. 실험 결과, 낮은 양자화 모델인 IQ3 XXS도 일반적인 코딩 작업에는 충분히 우수한 성능을 보여주었습니다.

2일 전0
r/LocalLLaMA분석

Gemma 12b - 추론 강화 지침 (Reasoning hardening instructions)

Gemma 12b 모델의 추론 능력을 강화하기 위해 인지적 편향을 방지하는 시스템 지침(System Instruction)을 설계하고 테스트한 사례를 공유합니다. 이 지침은 모델이 불필요하게 과도한 추론을 하지 않으면서도 주어진 전제에 엄격하게 기반하여 답변하도록 유도합니다.

2일 전0
r/LocalLLaMA분석

Qwen/Claude 증류(Distillation) 모델을 주의하세요 - 베이스 모델보다 성능이 떨어지는 경우가 많습니다

Qwen이나 Claude의 데이터를 활용한 소규모 증류(Distillation) 모델들이 베이스 모델보다 성능이 낮을 수 있음을 경고합니다. 충분한 데이터 없이 진행된 미세 조정은 성능 개선보다는 환각 현상이나 일관성 저하를 초래할 위험이 큽니다.

2일 전0
r/LocalLLaMA분석

"vibecoded: yes/no?"를 넘어서 — AI 관여도를 더 유익한 방식으로 포착하려는 시도, 버전 1

AI를 활용한 소프트웨어 개발 방식의 차이를 네 가지 유형(vibecoder, non-coder builder, traditional programmer, agentic engineer)으로 분류하고 분석합니다. 단순 코드 생성을 넘어 인간의 기술적 이해도와 AI 관여도를 어떻게 정의할 것인지에 대한 통찰을 제공합니다.

2일 전0
r/LocalLLaMA분석

중요하지 않음: MechaEpstein8000 (Qwen3-8B 파인튜닝)이 제가 Instagram 게시물(husk.irl 및 Phi)로 만든

Qwen3-8B 모델을 기반으로 파인튜닝된 MechaEpstein8000 모델에 대한 소개입니다. 해당 모델의 구체적인 추론 설정값(Temperature, Top P 등)을 포함하고 있습니다.

2일 전0
r/LocalLLaMA분석

Nex2 mini Phase Twin - 16gb footprint, 30b 모델

Intel A770 그래픽 카드를 위해 최적화된 Nex2 mini Phase Twin 모델이 출시되었습니다. 30B 모델임에도 16GB VRAM 환경에서 효율적으로 작동하며, 단일 또는 듀얼 GPU 구성에 따라 최적의 성능을 발휘합니다.

2일 전0
r/LocalLLaMA분석

Claude Fable-5를 증류한 Qwable-v1 공개

Anthropic의 Claude Fable-5 모델을 증류하여 개발한 오픈 웨이트 모델 Qwable-v1이 공개되었습니다. Qwen3.6-35B를 기반으로 하며, Fable-5의 에이전트 코딩 흔적을 학습하여 도구 호출 능력을 갖추고 있습니다.

2일 전0
r/LocalLLaMA분석

vLLM, nightly 버전에 Qwen3+를 위한 새로운 스트리밍 파서(streaming parser) 추가

vLLM nightly 버전에 Qwen3+ 모델을 위한 새로운 스트리밍 파서가 추가되었습니다. 이를 통해 Qwen3.6-27b 모델의 대화 중단 현상과 스트리밍 도구 호출 실패 문제를 해결하여 에이전트 워크플로우의 안정성을 높였습니다.

2일 전0
r/LocalLLaMA분석

HF 해커톤 제출물

LLM 기반의 형식 검증 에이전트인 Q.E.D를 소개합니다. Lean 4를 활용하여 증명 전략을 제안하고, 커널을 통해 실시간으로 검증하며 환각 없는 수학적 증명을 수행합니다.

2일 전0
r/LocalLLaMA분석

AWQ는 영리하게 양자화하지 않습니다. 단지 반올림 오차를 안전한 곳으로 옮길 뿐입니다

AWQ 양자화 방식의 수학적 원리를 분석하여, AWQ가 단순히 반올림 오차를 입력 활성화 값에 따라 재배치하는 방식임을 설명합니다. 재매개변수화를 통해 큰 활성화 값을 가진 채널의 오차를 줄이는 원리와 주의사항을 다룹니다.

2일 전0
r/LocalLLaMA분석

TrueNAS Scale에서 llama-server 실행하기

TrueNAS Scale 환경에서 llama-server를 실행할 때 발생하는 NVIDIA 드라이버 설치 및 CUDA 버전 호환성 문제를 해결하는 방법을 다룹니다. GPU 인식 문제와 CUDA 순방향 호환성 오류를 해결하기 위한 구체적인 설정법을 제공합니다.

3일 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.