Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

미국이 모델 서비스 제공을 막는다면, 중국은 가중치 공개를 막을 수 있다

미국이 모델 서비스 제공을 제한할 경우, 중국 역시 최고급 OSS 모델의 가중치 공개를 막는 등의 공급망 위험에 직면할 수 있습니다. 이는 소프트웨어 개발 처리량과 자동화 기회 측면에서 장기적인 경제적 영향을 미칠 수 있습니다.

4일 전0

r/LocalLLaMA분석

MLX/OMLX/DMR을 OpenCode/Hermes/Open WebUI와 함께 수동 설정 없이 한 번에 실행하는 방법 - Harbor

Harbor의 v0.5.0 업데이트는 네이티브 서비스를 백엔드로 통합 호스팅하며, Open WebUI, OpenCode, Hermes 등 관련 서비스와 자동 연결을 지원합니다. 이 CLI는 코딩 에이전트와의 연동성을 높여 자연어 명령으로 시스템 구성 및 실행이 가능해졌습니다.

4일 전0

r/LocalLLaMA분석

2026년 중반 로컬 모델

2026년 중반에는 로컬 환경에서 구동 가능한 오픈 웨이트 모델이 현실화될 전망입니다. 이는 더 많은 RAM을 요구하는 것이 아니라, sparse attention, MoE, latent KV compression 등 기술적 개선 덕분입니다.

4일 전0

r/LocalLLaMA분석

Qwen3.6이 WASM에 대해 자신 있게 틀리다

작성자는 Qwen 27B 모델을 사용하여 WASM 바이트코드를 생성하는 과정에서, 모델이 지속적으로 잘못된 결과를 내놓고 이를 확신하며 반복적인 디버깅 문제를 겪고 있음을 공유했습니다. 특히 Qwen3.6-Plus와 같은 최신 버전에서도 오류가 발견되었으나, 웹 검색 기능을 활용한 Qwen3.7-Plus 및 웹 검색 없이도 정확한 답변을 제공하는 Qwen3.7-Max의 성능 차이가 주목됩니다.

4일 전0

r/LocalLLaMA분석

간단한 홈브루 OpenAI 호환 PowerShell 콘솔 클라이언트 제작

OpenAI 호환 모델과 상호작용할 수 있는 PowerShell 기반의 콘솔 클라이언트를 제작하여 공유했습니다. 이 도구는 로컬 또는 원격 OpenAI 호환 모델을 사용하며, 미리 승인된 명령어 목록(whitelist) 기능을 갖추고 있어 커스터마이징이 가능합니다.

4일 전0

r/LocalLLaMA분석

michaelw9999의 Cohere2-MoE용 아키텍처 지원 추가 (Pull Request #24260)

Cohere Labs가 코드 생성 및 에이전트 엔지니어링에 최적화된 30B 파라미터의 오픈 웨이트 모델 'North Mini Code'를 출시했습니다. 이 모델은 특히 터미널 작업과 소프트웨어 엔지니어링 분야에서 강력한 성능을 보여줍니다.

5일 전0

r/LocalLLaMA분석

llama-launcher v1.3 출시: 베이지안 최적화 기능 추가

llama-launcher v1.3이 출시되어 Optuna 프레임워크 기반의 최적화 기능을 추가했습니다. 이 GUI 앱은 복잡한 명령어 입력 없이 클릭만으로 llama-server를 구동하며, Tree-Structured Parzen estimation을 활용해 매개변수 조정을 자동화합니다. 이를 통해 수동 튜닝 과정 없이도 모델 성능 향상을 기대할 수 있습니다.

5일 전0

r/LocalLLaMA분석

32비트 크로스플랫폼 코딩 에이전트를 펜티엄 M에서 구동하는 방법

32비트 크로스플랫폼 코딩 에이전트를 소개하며, 매우 낮은 사양의 구형 CPU(펜티엄 M 등)에서도 빠르고 효율적으로 작동함을 강조합니다. 이 에이전트는 플러그인 지원과 작은 용량을 자랑하며, 로컬 및 클라우드 모델 모두를 지원하여 높은 호환성을 제공합니다.

5일 전0

r/LocalLLaMA분석

GLM 5.2가 GLM Coding Plan에 배포되었으며, API 및 MIT 가중치가 일주일 내 공개됩니다.

GLM 5.2 모델이 GLM Coding Plan에 배포되었으며, API 및 MIT 가중치가 곧 공개될 예정입니다. 이 모델은 1M 컨텍스트 창을 지원하고, 코딩 작업에 최적화된 'max' 사고 모드를 제공하여 개발자들에게 강력한 기능을 제공합니다.

5일 전0

r/LocalLLaMA분석

inclusionAI의 Vista 9B/4B 모델

InclusionAI가 Qwen3.5 9B 백본을 기반으로 GUI-grounding 비전-언어 모델인 VISTA-9B와 VISTA-4B를 공개했습니다. 이 모델은 스크린샷과 자연어 지침을 정규화된 좌표로 매핑하는 것이 목표입니다. 특히, '뷰 일관성 GRPO 학습'과 '자체 검증 교차 뷰 앵커링' 기법을 통해 정확한 위치 지정 능력을 강화했습니다.

5일 전0

r/LocalLLaMA분석

API는 임대하는 것이고, 로컬 가중치(weights)는 영원하다

Anthropic이 미국 수출 규정 준수를 위해 Fable 5를 전 세계적으로 폐기한 사례는 AI 모델의 통제권 문제를 제기합니다. 클라우드 API 사용은 지능을 임대하는 것이며, 로컬 가중치(weights)만이 진정한 디지털 독립성을 보장한다는 경고입니다.

5일 전0

r/LocalLLaMA분석

미국 정부, Jailbreak 문제로 Anthropic의 Fable 5와 Mythos 5 전 세계 서비스 강제 중단

미국 정부가 Anthropic의 Fable 5와 Mythos 5 서비스에 대해 긴급 수출 통제 지침을 내리면서, 해당 모델들이 전 세계적으로 강제 중단되었습니다. 이는 사소한 Jailbreak 문제로 인해 투명한 과정 없이 API 접근이 완전히 폐쇄된 사례입니다.

6일 전0

r/LocalLLaMA분석

Apostate 엔진 개발 현황 공유

Apostate 엔진 개발 현황을 공유하며, 강력한 거부 방향 목표를 위해 단순 직교 투영 대신 사각 투영 방식을 구현했다고 설명합니다. 향후 의도된 행동 변화와 KL 보존을 위해 전단 매핑 추가를 고려 중이며, 정식 출시 시 더 발전할 것이라고 예고했습니다.

6일 전0

r/LocalLLaMA분석

로컬 LLM이 더 이상 민주적이지 않다... 하드웨어 장벽이 너무 심해졌다.

과거 로컬 LLM 실험 초창기에는 일반적인 게이밍 GPU로도 충분히 접근성이 높았으나, 현재는 하이엔드 하드웨어 장벽이 높아져 개인의 실험 및 활용이 어려워지고 있다는 문제 제기입니다.

6일 전0

r/LocalLLaMA분석

MiniMax Sparse Attention (MSA)

본 글은 초장문 컨텍스트 처리를 위한 MiniMax Sparse Attention (MSA)을 제안합니다. MSA는 GQA 기반의 블록별 희소 어텐션을 사용하여, 기존 softmax 어텐션의 2차 비용 문제를 해결했습니다. 이 기술은 토큰당 연산량을 대폭 줄이고 GPU 실행 경로를 최적화하여 높은 효율성을 달성했습니다.

6일 전0

r/LocalLLaMA분석

Hermes와 Qwen3.6_35b를 RTX3060/12gb에서 사용한 Two-shot 결과

Hermes와 Qwen3.6_35b 모델을 RTX 3060/12GB 환경에서 활용한 Two-shot 프롬프팅 결과를 공유합니다. 오디오 파일의 FFT 스펙트럼 분석을 기반으로 특정 스타일(1980년대 부믹스)의 GIF 애니메이션을 생성하는 파이썬 솔루션 구축 방법을 제시하며, 실제 개발 과정에서의 개선점을 논하고 있습니다.

6일 전0

r/LocalLLaMA분석

Open Dungeon: Gemma 4 QAT와 인라인 Uncen-FLUX 이미지를 사용한 로컬 역할극, 8GB RAM(OS)에서 최대

로컬 환경에서 작동하는 Open Dungeon을 개발하여, Gemma 4 (QAT Q4)를 내레이터로 사용하고 FLUX 이미지를 현지 생성합니다. 이 시스템은 클라우드나 API 키 없이 완전히 프라이빗하게 구동되며, 대용량 컨텍스트(256k)에서도 낮은 RAM 점유율을 유지하는 것이 특징입니다.

6일 전0

r/LocalLLaMA분석

moonshotai/Kimi-K2.7-Code · Hugging Face

Kimi K2.7 Code는 기존 Kimi K2.6을 기반으로 개발된 코딩 특화 에이전트 모델입니다. 이 모델은 장기적인 코딩 작업에서 성능을 크게 개선했으며, 복잡한 소프트웨어 엔지니어링 워크플로우 전반에 걸쳐 종단 간 작업 완료 능력을 강화했습니다.

6일 전0

r/LocalLLaMA분석

🚀PP-OCRv6 공식 출시!

PaddleOCR에서 새로운 OCR 모델 시리즈인 PP-OCRv6를 공식 출시했습니다. 이 모델은 1.5M부터 34.5M 파라미터까지 다양하게 확장되어, 브라우저부터 서버까지 광범위한 환경에 최적화되었습니다. 특히 OpenVINO 사용 시 CPU 추론 속도가 최대 5.2배 향상되었으며, PCB/CAD 도면 등 다양한 신규 시나리오를 지원합니다.

6일 전0

r/LocalLLaMA분석

대용량 모델을 저사양 RAM 환경에서 구동해 본 결과

저사양 노트북 환경(4코어 i7, 2.6 GiB DDR4 RAM)에서 LLM 구동 가능성을 테스트한 결과, Gemma 4 12B와 StepFun Flash 3.7 198B MoE 등 대용량 모델을 성공적으로 실행했습니다. 이는 고사양 GPU나 많은 VRAM 없이도 다양한 환경에서 LLM을 구동할 수 있음을 시사합니다.

6월 11일0

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드