본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터r/LocalLLaMA1066건

r/LocalLLaMAAI 번역분석

AMD Ryzen AI MAX+ 395에서 DeepSeek V4 Flash, 최대 32 tok/s 달성

AMD Ryzen AI MAX+ 395 하드웨어에서 DeepSeek V4 Flash 모델을 구동하여 최대 32 tok/s의 디코드 속도를 달성했습니다. ROCmFPX 기술을 활용한 혼합 정밀도 양자화 방식을 통해 128GB 통합 메모리 환경에서 효율적인 추론 성능을 구현했습니다.

r/LocalLLaMAAI 번역분석

가장 중요한 것은 작은 것들입니다. - llama.cpp - 여러 업데이트 (Boost & Fixes)

llama.cpp의 최신 업데이트를 통해 Mamba-2 가속을 위한 ggml-cuda의 chunked SSD matmul 추가 및 Metal 백엔드용 FWHT 커널이 도입되었습니다. 또한 GPT-OSS 모델을 위한 Eagle3-v3 지원과 다양한 버그 수정이 포함되었습니다.

r/LocalLLaMAAI 번역분석

NightRun 제작: USB 스틱에서 바로 로컬 LLM 부팅하기. OS 없이 UEFI 앱만으로 구동 (x86-64 + Raspberry Pi

OS나 커널 없이 Rust로 작성된 UEFI 앱만으로 USB 스틱에서 로컬 LLM을 직접 부팅하는 기술을 소개합니다. Llama 3.2, Qwen3 등 표준 GGUF 모델을 지원하며 Raspberry Pi 5에서도 구동 가능합니다.

r/LocalLLaMAAI 번역분석

spec: wjinxu에 의한 DSpark 추측적 디코딩 (Speculative Decoding) 추가

DSpark를 활용한 추측적 디코딩(Speculative Decoding) 실험 및 관련 모델 사례를 소개합니다. DeepSeek-V4 및 Bonsai 모델 등에 적용된 DSpark의 성능 개선 효과를 확인하고 공유할 것을 권장합니다.

r/LocalLLaMAAI 번역분석

[데이터셋 출시] - SupraLabs의 LLM-Self-Identification

SupraLabs에서 LLM이 자신의 정체성을 정확히 인지할 수 있도록 돕는 'LLM-Self-Identification' 데이터셋을 출시했습니다. 모델 이름, 아키텍처, 파라미터 수 등 모델의 주요 정보를 학습시키는 데 최적화되어 있습니다.

r/LocalLLaMAAI 번역분석

[연구] 소형 LLM에서의 검증된 솔루션 프로그램에 대한 동적 재실행 (Dynamic Re-Execution)

소형 LLM에서 추론과 실행을 분리하여 정확도를 높이는 동적 재실행(Dynamic Re-Execution) 기술을 제안합니다. 검증된 프로그램을 12B 모델이 토큰 오버헤드 없이 재실행함으로써 비트 단위의 결정론적 결과를 산출합니다.

r/LocalLLaMAAI 번역분석

Ami – 여러 앱에 걸쳐 번거로운 업무를 처리해 주는 로컬 오픈 소스 에이전트

Ami는 사용자의 작업 스타일과 커뮤니케이션 방식을 학습하는 로컬 우선 오픈 소스 에이전트입니다. 그래프 메모리를 활용해 앱, 데이터, 도구 간의 복잡한 업무를 자율적으로 수행하며 개인화된 코파일럿 역할을 합니다.

r/LocalLLaMAAI 번역분석

이 단 하나의 SKILL.md만 있으면 데이터 분석을 위한 Python 샌드박스를 가질 수 있습니다.

LLM 에이전트가 bash 명령어를 안전하게 실행할 수 있도록 돕는 로컬 Python 샌드박스 도구인 Vivarium을 소개합니다. E2B의 대안으로 설계되었으며, 단일 사용자 환경에서 에이전트의 코드 실행을 격리하여 안전하게 관리할 수 있습니다.

r/LocalLLaMAAI 번역분석

의료 모델: Reasoning-Medical-27B (Qwen3.6-27B 파인튜닝)

Qwen3.6-27B를 기반으로 의료 추론에 특화된 Reasoning-Medical-27B 모델이 공개되었습니다. 37만 개의 고품질 데이터셋과 Chain-of-Thought 추론 방식을 결합하여 전문적인 의학 지식 대응 능력을 높였습니다.

r/LocalLLaMAAI 번역분석

llama.cpp를 사용 중이라면 dsv4를 위해 채팅 템플릿(chat template)을 업데이트하세요

llama.cpp 사용 시 특정 GGUF 파일의 채팅 템플릿 동작 오류로 인해 코딩 에이전트의 성능이 저하되는 문제가 발생했습니다. 이를 해결하기 위해 DeepSeek-V4용 jinja 템플릿 파일을 직접 지정하는 방법이 권장됩니다.

r/LocalLLaMAAI 번역분석

추측 대신 양자화 전 어떤 가중치가 중요한지 실제로 테스트할 수 있는 도구 제작 (Qwen3.6-27B, 3개 빌드:

양자화 과정에서 가중치 그룹별 중요도를 KL 발산(KL divergence)을 통해 수치로 측정하는 자동화 도구를 개발했습니다. 이를 통해 Qwen3.6-27B 모델을 성능과 압축률의 균형에 따라 세 가지 버전(Bedrock, Tightrope, Gambit)으로 제작했습니다.

r/LocalLLaMAAI 번역분석

microsoft/VibeVoice-ASR-BitNet

VibeVoice-ASR-BitNet은 엣지 CPU에서 실시간 추론이 가능하도록 최적화된 ASR 모델입니다. 이질적 양자화를 통해 모델 크기를 약 1/3로 압축했으며, Whisper.cpp 대비 최대 2.3배 빠른 성능을 보여줍니다.

r/LocalLLaMAAI 번역분석

에이전트가 결정을 잊고 매 세션마다 표류하는 것에 지치셨나요? Cairn(Local/MIT)을 만들었습니다

AI 코딩 에이전트가 세션마다 컨텍스트를 잃고 계획에서 벗어나는 문제를 해결하기 위한 로컬 도구 Cairn을 소개합니다. Cairn은 프로젝트 지도와 설계도를 작성하여 에이전트가 일관된 결정을 유지하도록 돕습니다.

r/LocalLLaMAAI 번역분석

KV 양자화 변경 후 Qwen 3.6 27B에서 나타난 엄청난 차이

Qwen 3.6 27B 모델의 KV 캐시 및 양자화 설정을 변경하여 에이전트의 성능을 개선한 사례를 공유합니다. IQ4_NL에서 Q4_M 양자화로 전환한 결과, 메모리 점유율은 비슷하면서도 도구 사용 능력과 지침 준수 능력이 크게 향상되었습니다.

r/LocalLLaMAAI 번역분석

모든 LLM은 자유주의적이고 좌편향되어 있다. 심지어 Grok조차 절반의 확률로 그렇다.

다양한 LLM을 대상으로 정치 성향 테스트를 실시한 결과, Grok을 포함한 대부분의 모델이 자유지상주의 좌파 성향을 보였습니다. 모델의 자기 인식과 실제 측정값 사이의 차이를 분석하며, 모델 간의 상대적인 정치적 편향성을 비교했습니다.

r/LocalLLaMAAI 번역분석

Kimi K3 구동을 위한 (반진지한) 자재 명세서 (BoM)

Kimi K3 모델을 구동하기 위해 필요한 하드웨어 자재 명세서(BoM)와 기술적 고려사항을 다룹니다. 2304GB VRAM 확보를 위한 4대의 호스트 구성과 PCIe 5.0 병목 현상, 결함 허용(fault tolerance) 문제 등을 분석합니다.

r/LocalLLaMAAI 번역분석

[프로젝트] Mac에서 Perfect Dark를 플레이하는 로컬 LLM 에이전트 — 실제 이동 및 전투 (on-device MLX)

Mac의 MLX 프레임워크를 활용하여 로컬 LLM이 실제 게임 Perfect Dark를 플레이하는 에이전트 프로젝트를 소개합니다. LLM은 상위 수준의 행동을 결정하고, 빠른 전투 레이어가 실시간 조준 및 이동을 처리하는 계층적 구조를 가집니다.

r/LocalLLaMAAI 번역분석

32개의 실제 계량기 및 영수증 사진으로 6개 비전 모델 벤치마크 수행: 가격이 정확도를 거의 예측하지 못함

실제 계량기 및 영수증 사진 32장을 활용하여 6개 비전 모델의 필드 수준 정확도를 벤치마크한 결과입니다. 실험 결과, 비용이 높은 모델이 반드시 더 높은 정확도를 보장하지는 않으며, 특정 모델들은 어려운 환경에서 높은 성능을 유지했습니다.

r/LocalLLaMAAI 번역분석

AMD 6800H (iGPU/UMA)에서 Gemma 4 및 Qwen 3.6 MoE 테스트 - 성능 분석

AMD Ryzen 7 6800H APU 환경에서 Gemma 4 및 Qwen 3.6 MoE 모델의 추론 성능을 벤치마킹했습니다. Vulkan 백엔드를 통해 iGPU와 공유 메모리(UMA)를 활용한 다양한 양자화 방식의 성능을 분석했습니다.

r/LocalLLaMAAI 번역분석

Nifer는 정말 미쳤습니다. Qwen 3.6 35B (No thinking 모드)로 700t/s 달성. RTX5090을 위해 제작됨.

Nifer는 Qwen 3.6 35B 모델을 사용하여 단일 인스턴스에서 최대 700t/s의 압도적인 추론 속도를 구현한 도구입니다. RTX 5090에 최적화되어 설계되었으며, No thinking 모드를 통해 Cerebras 수준의 성능을 제공합니다.

이전6 / 54전체 54페이지 중 6페이지다음