Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
Reddit AI Engineering 83건필터 해제
Qwen3.6-27B, Q8 KV 캐시 및 코딩 성능 분석
과거 여러 모델에서 Q8 KV 캐시를 테스트하며 시간 낭비를 겪었으나, Qwen3.6-27B 는 UD_Q4_K_XL F16 KV 캐시에서도 놀라운 성능을 보여줍니다. 긴 컨텍스트 (64k+) 에서 코딩 작업이 양자화된 KV 캐시에 의해 영향을 받는지, 그리고 새로운 Qwen3.5/3.6 모델의 견고성은 어떠한지에 대한 커뮤니티의 궁금증과 테스트 경험을 공유합니다.
Qwen3.6 35B용 'Heretic' KLD 0.0015 모델, 24GB VRAM에서 압도적 성능
Qwen3.6 35B 모델을 위한 최적의 비검열 (uncensored) 버전인 'Heretic'이 등장했습니다. KLD 0.0015라는 극도로 낮은 값으로 원래 모델과 유사한 성격을 유지하면서도, IQ4XS 양자화 및 Q8 KVcache 설정 시 24GB VRAM에서 다중 턴 도구 호출 실패 없이 구동됩니다. 벤치마크 데이터와 저자의 경험상 원본보다 지능이 높을 가능성이 크며, 유해 프롬프트가 아닌 경우에도 안정적인 성능을 보입니다.
AIDA v1.1.0 출시, 인증 강화 및 PDF 리포트 기능 추가
LLM 기반 자동화 펜테스팅 에이전트 AIDA가 v1.1.0으로 업데이트되었습니다. JWT 인증, 관리자/사용자 역할 분리, 그리고 Exegol 없이도 시작 가능한 경량 Docker 컨테이너(~2GB)가 내장되어 안정성이 크게 향상되었습니다. 또한 Burp Suite 로 처리하기 어려운 페이로드를 위한 `python_exec` 기능과 `http_request` 를 통한 자동 인증 주입 기능이 추가되었으며, 이제 PDF 형식의 리포트를 생성할 수 있습니다.
VRAM 제한 환경에서도 고압축 양자화 모델이 더 빠를 수 있다
3070 8GB GPU 환경에서 Qwen3.6-35B-A3B 모델을 실행한 경험 공유입니다. 직관적으로 생각하기엔 작은 압축(Q4_XS)을 써야 할 것 같지만, 실제로는 더 큰 양자화(Q4_K_XL, Q5_K_S)를 사용하면 오히려 속도가 빨라질 수 있습니다. MoE 구조의 모델은 메모리 대역폭과 연산 효율이 중요하므로, 기대치보다 높은 압축률을 적용해 성능을 테스트해보는 것이 좋습니다.
RTX 4090 로 Qwen 3.6 27B 로컬 실행 및 IDE 통합 가이드
RTX 4090, Ryzen 9800X3D, Win11 환경에서 Qwen 3.6 27B 모델을 로컬로 구동하고 IDE 에 통합하는 방법을 묻는 초보자의 질문입니다. Ollama, vLLM, LLM Studio, llama.cpp 등 주요 런타임의 비교와 성능 최적화 팁이 필요한 상황으로, 개발자가 자신의 하드웨어에 맞는 최적의 설정을 찾는 데 도움이 될 것입니다.
로컬 LLM으로 5Hz 로봇 제어: FastVLA 오픈소스 출시
Anthropic의 VLA 모델 기반인 FastVLA가 로컬 환경 (L4 GPU) 에서 5Hz 주기의 실시간 로봇 제어를 가능하게 하는 것으로 확인되었습니다. 해당 프로젝트는 벤치마크 결과와 GitHub 저장소를 공개하며, 엣지 AI 및 로컬 추론을 통한 로봇 자동화 분야의 주요 이정표로 주목받고 있습니다.
OpenAI 프라이버시 필터 오픈소스화 (Apache 2.0)
4 월 22 일, OpenAI 가 15 억 파라미터 규모의 '프라이버시 필터' 모델을 Apache 2.0 라이선스로 오픈소스화했습니다. 이 모델은 PII(개인식별정보) 를 탐지하고 삭제하는 데 96% 의 F1 점수를 기록하며, API 호출 없이 온디바이스에서 로컬로 실행 가능합니다. 최근 몇 달간 OpenAI 에서 나온 가장 실용적이고 가치 있는 오픈소스 릴리스 중 하나로 평가받습니다.
Gemma 4 및 Qwen 3.6 GGUF 모델 최적화 벤치마크 분석
본 게시물은 Gemma 4 26B-A4B 및 Qwen 3.6 등 대규모 언어 모델(LLM)의 다양한 양자화(Quantization) 버전에 대한 KL Divergence (KLD) 벤치마크 결과를 공유합니다. 핵심 내용은 Unsloth에서 제공하는 GGUF 버전이 전반적인 성능과 정확도 측면에서 우수하다는 점입니다. 특히, Unsloth GGUF가 21개 크기 중 22개에 걸쳐 최고 성능을 보였으며, 새로운 UD-IQ4_NL_XL 및 MLX 최적화 버전을 제공하여 사용자에게 더 높은 정확도와 효율성을 제공합니다.
Apple 온디바이스 3B 모델 LoRA 학습: Colab T4 및 Mac 환경 가이드
본 글은 Apple의 온디바이스(on-device) 3B 모델에 LoRA 어댑터를 학습시키는 과정을 공유합니다. 원래는 정확도 개선과 접근성 확인이 목적이었으며, 메모리 제약 극복을 위해 커스텀 QLoRA 파이프라인을 구축했습니다. 이 방법은 memory-mapped loading과 4-bit 양자화(quantization)를 결합하여 요구 사양을 약 6GB RAM/5GB GPU로 낮췄습니다. 학습 결과, 어댑터는 기본 모델의 성능을 40%에서 75% 이상으로 향상시켰으며, 검색 증강 생성(Retrieval)과 결합 시에는 최대 8
Qwen 모델 비교 분석: MoE 구조의 성능과 규칙 준수 능력
본 글은 4개의 RTX 3090 GPU 환경에서 세 가지 크기의 Qwen 모델(Qwen3.5-27B, Qwen3.5-122B-A10B, Qwen3.6-35B-A3B)을 다중 에이전트 워크로드에 적용한 성능 비교 분석입니다. 특히 30~60k 토큰 프롬프트와 엄격한 bash allow-list를 요구하는 복잡한 '규칙 준수' 환경에서 모델의 효율성을 측정했습니다. 전반적인 처리량(throughput)에서는 Qwen3.6-35B가 압도적 우위를 보였으나, 가장 중요한 규칙 준수 능력 측면에서는 MoE 구조인 122B와 35B 모두 27
로컬 LLM 비교: Qwen 3.6 35B vs Gemma 4 26B 성능 분석
본 글은 로컬 환경에서 구동되는 두 대규모 언어 모델(LLM), Qwen 3.6 (35B)과 Gemma 4 (26B)의 성능을 비교한 사용자 경험 공유입니다. 작성자는 Qwen 3.6을 'A+' 학생에 비유하며 높은 완성도를, Gemma 4를 '만족스러운 B학점'으로 평가했습니다. 두 모델 모두 16GB VRAM 환경에서 비슷한 속도로 구동되었으나, 댓글을 통해 Gemma 4의 잠재력을 시스템 프롬프트 최적화로 끌어올릴 수 있다는 추가적인 인사이트가 제시되었습니다.
MacBook Air M5에서 21개 로컬 LLM 코딩 성능 및 속도 비교 분석
본 글은 MacBook Air M5 환경에서 21개의 다양한 크기와 아키텍처를 가진 로컬 대규모 언어 모델(LLM)의 코딩 능력과 추론 속도를 비교한 결과를 담고 있습니다. 평가 지표는 164개 코딩 문제에 대한 pass@1 점수와 토큰/초(tok/s) 단위의 처리 속도입니다. 분석 결과, Qwen 3.6 35B-A3B 모델이 89.6%로 가장 높은 코딩 정확도를 보였으며, Phi 4 Mini 3.8B는 작은 크기에도 불구하고 빠른 속도와 준수한 성능을 보여 '가성비' 모델로 주목받았습니다. 또한, Gemma 4 계열의 결과에 대한
LLM 기반 코딩 게임 비교: Qwen3.5부터 Gemma 4까지의 성능 분석
본 글은 다양한 대규모 언어 모델(LLMs)들이 코딩을 통해 인터랙티브 레이싱 게임을 생성하는 과정을 비교 분석한 결과입니다. 참가 모델로는 Qwen3.6 35B, Qwen3.5 122B, Qwen3.5 27B, Qwen3.5 4B, Gemma 4 31B, Gemma 4 26B, Qwen3 Coder Next, GLM 4.7 Flash 등이 포함됩니다. 테스트는 Vision 기능 비활성화 및 동일한 초기 프롬프트 설정을 기반으로 진행되었으며, 각 모델의 코드 생성 능력, 디버깅 과정, 그리고 최종 게임 구현 품질을 비교했습니다. 흥
Dual DGX Spark (Asus GX10)로 로컬 LLM 구동 성능 테스트 결과 공유
기존 고발열/고소음의 GPU 환경(3090, MI50 등)에서 Asus GX10 기반의 Dual DGX Spark 시스템으로 변경한 후 로컬 LLM 구동 성능을 테스트했습니다. 특히 Llama Benchy 벤치마크를 통해 다양한 컨텍스트 길이(Depth)와 토큰 수에 따른 추론 속도(t/s), 첫 토큰 시간(TTFR), 종단 간 TTFT(e2e_ttft) 등을 측정했습니다. 결과적으로, 이 시스템은 대용량 컨텍스트 처리에서 안정적이고 효율적인 성능을 보여주었으며, 특히 32k Depth와 100k Depth 테스트에서도 높은 추론
로컬 LLM의 책 탐색 기능으로 스토리텔링 역량 강화하기
본 글은 로컬 환경에서 대규모 언어 모델(LLM)이 방대한 양의 책 데이터를 직접 탐색하고 학습할 수 있도록 하는 방법을 소개합니다. 이를 통해 단순히 훈련된 지식에 의존하는 것을 넘어, 실제 문학 작품의 맥락과 깊이를 이해하여 훨씬 풍부하고 일관성 있는 창작 스토리를 생성할 수 있습니다. 특히 `Local-MCP-server`를 활용하면 로컬에서 구텐베르크(Gutenberg) 책들을 효과적으로 인덱싱하고 LLM에 연결할 수 있어, AI 기반 스토리 작가 도구의 성능을 한 단계 끌어올릴 수 있는 실질적인 가이드라인을 제공합니다.
로컬 LLM 9개 모델 비교 분석: 비행 시뮬레이션 게임 제작 결과
본 글은 동일한 '비행 전투 시뮬레이터' 프롬프트를 사용하여 로컬 환경에서 구동되는 9개의 대규모 언어 모델(LLM)의 성능을 비교 분석한 결과입니다. 단순히 파라미터 크기나 비트 폭(8-bit Quantization, Q8)만으로는 모델의 품질을 판단하기 어렵다는 결론을 내렸습니다. 가장 인상적인 발견은 양자화 제공업체(Quant Provider)가 비트 폭보다 훨씬 중요하며, 코드 라인 수 같은 지표는 성능과 직접적인 상관관계가 없다는 점입니다. 특히 Qwopus 3.5 27B 모델이 실제 비행 물리학 구현 및 절차적 오디오까지
Qwen 3.6 35B 모델 샘플링 파라미터 최적화 가이드
본 글은 대규모 언어 모델(LLM)인 Qwen 3.6 35B의 샘플링 파라미터 최적화에 대한 어려움을 공유합니다. 기존 권장 설정이 최적이 아닐 수 있다는 의문을 제기하며, 특히 min_p=0.0 같은 값에 대해 회의적인 시각을 보입니다. GSM8K나 IFEval 같은 벤치마크는 포화 상태이며, GPQA Diamond가 가장 나은 대안이지만 실행 시간이 길고 분산(variance)이 존재합니다. 저자는 단일 변수 탐색(univariate search) 후 그리드 검색(grid search), 마지막으로 Optuna를 이용한 최적화를
고성능 로컬 LLM 구축, 과연 가치가 있을까? (Private AI Setup)
최신 상용 모델(Claude Pro Max, GPT Pro 등)의 성능과 속도에 필적하는 고성능 로컬 LLM 환경 구축이 과연 가치가 있는지 고민하는 글입니다. 5x RTX 3090 및 128GB+ DDR5 메모리를 갖춘 사설 시스템을 고려하고 있지만, 높은 비용과 복잡한 설정 난이도에도 불구하고 프라이버시와 데이터 통제권을 확보하기 위해 구축을 원합니다. 로컬 환경에서 상용 모델 수준의 속도와 지능적 경험을 구현할 수 있을지 전문가들의 의견이 필요한 상황입니다.
크로스 플랫폼 LLM 통합 솔루션 'Eurora' 소개
Eurora는 사용자가 매번 AI에게 컨텍스트를 설명할 필요가 없도록 설계된 크로스 플랫폼(Cross-platform) LLM 통합 애플리케이션입니다. Linux, macOS, Windows 환경에서 작동하며 모든 브라우저에 커스텀 네트워크 레이어를 생성하여 웹사이트 전체 내용을 파악하고 MCP(Microcontroller Programming)-와 같은 명령을 실행할 수 있습니다. YouTube 영상의 스크립트, 프레임 정보 등을 추출하거나 Google Docs 등 구조화된 데이터를 가져오는 다양한 어댑터를 제공합니다. 로컬 우선
Nemotron-3-Super 기반 수학 추론 LLM 공개: AIME 2026에서 90%+ 성능 달성
본 게시물은 NVIDIA의 Nemotron-3-Super-120B 모델을 기반으로 수학 추론 능력을 극대화한 경량화 LLM 버전을 공개합니다. 이 모델은 REAP(pruning) 기법을 통해 전문가 수를 512개에서 256개로 줄이고, AIMO3 및 AstralMath 문제에 GRPO (Guided Reinforcement Policy Optimization)를 적용하여 파인튜닝되었습니다. 최종적으로 AWQ 또는 FP8 양자화를 거쳐 메모리 효율성을 높였으며, 그 결과 단일 H100/RTX PRO 6000 Blackwell GPU로
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.