본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

r/OpenAI Codex (search) 276건필터 해제

Qwen 3.6 27B KV cache 양자화(Quantization) 벤치마크: 75개 쌍, q8/q6/q5/q4, KVarN

Qwen 3.6 27B 모델을 대상으로 다양한 KV cache 양자화 방식(q8, q6, q5, q4 등)의 성능을 벤치마크한 결과입니다. BeeLlama.cpp 엔진을 사용하여 KVarN, TurboQuant 등 최신 양자화 기법의 효율성을 분석했습니다.

노트북에서 구동되는 Qwen3.6 35B-A3B: 나의 제로 투 원(Zero to One) 순간

ASUS Zenbook Pro 14 환경에서 Qwen3.6 35B-A3B 모델을 로컬로 구동한 경험을 공유합니다. 개인정보 보호를 위해 클라우드 대신 로컬 모델을 '제2의 뇌'로 활용하며 얻은 성능과 설정 방법을 다룹니다.

DeepSWE에서 실행된 Qwen 3.6 27B

DeepSWE 벤치마크에서 Qwen 3.6 27B 모델의 성능을 분석한 결과입니다. 이 모델은 Haiku 4.5 등을 상회하는 성능을 보였으며, 로컬 환경에서 가성비 좋은 SOTA 모델로서의 가능성을 보여주었습니다.

커스텀 CUDA 커널을 사용한 PyTorch MoE/MoD 학습 프레임워크 구축 [Apache 2.0]

MoE 및 MoD 아키텍처를 지원하는 PyTorch 기반의 LLM 학습 프레임워크입니다. 커스텀 CUDA 커널을 통해 학습 속도를 대폭 향상시켰으며, 적응형 학습 오케스트레이터를 통해 효율적인 파라미터 및 메모리 관리를 제공합니다.

로컬 추론 노드로서의 Galaxy Z Fold6 — llama.cpp/Vulkan, 홈랩 텔레메트리, SHA-256 모델 검증

Galaxy Z Fold6를 로컬 추론 노드로 활용하기 위해 llama.cpp와 Vulkan 백엔드를 사용하는 Android 앱 'Pocket Node' 개발 사례를 소개합니다. SHA-256 모델 검증, 홈랩 텔레메트리 연동, Tailscale 기반 OpenAI 호환 API 노출 등 기술적 구현 상세를 다룹니다.

Gemma4_31b_fp8, 나의 테스트 환경에서 Sonnet_4.6_medium과 대등한 성능을 보여줌

Gemma4_31b_fp8 모델이 테스트 환경에서 Sonnet_4.6_medium과 대등한 성능을 기록했습니다. 그래프 쿼리, 엔티티 추출, 에이전트 도구 호출 및 코드 작성 등 다양한 벤치마크에서 우수한 결과를 보였습니다.

오픈 소스 이미지 생성 모델이 폐쇄형 소스 품질에 더 가까워지고 있다는 사실

최신 오픈 소스 이미지 생성 모델이 폐쇄형 API와의 성능 격차를 빠르게 좁히고 있다는 벤치마크 결과를 공유합니다. 특히 구성적 제어, 텍스트 렌더링, 생성 속도 측면에서 오픈 모델의 실질적인 경쟁력을 분석합니다.

RTX 5090에서의 DFlash Speculative Decoding + KV Cache Compression 벤치마크 — 3.26배 속도

NVIDIA RTX 5090 환경에서 Qwen3.6-27B 모델을 대상으로 DFlash Speculative Decoding과 KV Cache Compression을 결합한 벤치마크 결과입니다. q4_0/turbo4 전략 사용 시 성능 저하를 최소화하면서 최대 3.26배의 속도 향상을 달성했습니다.

GPU를 하나 더 추가했더니 거의 선형적인 성능 향상이 나타나는 것이 이상합니다

NVLink 없이 2개의 RTX 3090을 사용했을 때 Qwen 2.5 모델의 추론 성능이 거의 선형적으로 향상되는 현상을 보고했습니다. P2P가 자동으로 활성화되어 텐서 병렬성(TP=2) 환경에서 높은 효율을 보였습니다.

브랜드 템플릿을 기반으로 Word 문서를 생성하는 Codex 기술

Codex를 활용하여 회사의 브랜드 템플릿(DOCX, PPTX, XLSX)을 엄격히 준수하며 문서를 자동 생성하는 기술을 소개합니다. AI가 디자인 요소를 임의로 변경하지 않고 템플릿의 레이아웃과 스타일을 보존하며 가변적인 콘텐츠를 삽입하는 프로세스를 구현했습니다.

Meddies PII: 임상 텍스트를 위한 오픈 멀티링구얼 비식별화 모델

Meddies PII는 임상 텍스트에서 환자 식별 정보를 보호하면서도 임상적 유효성을 유지하는 오픈 멀티링구얼 비식별화 모델 및 데이터셋입니다. 합성 데이터를 활용해 다양한 언어와 무질서한 문서 형식에서도 안정적인 추출 성능을 목표로 합니다.

vllm-doctor — vLLM 추론 서버를 진단하고 모니터링하는 CLI 도구

vllm-doctor는 vLLM 추론 서버의 메트릭을 분석하여 문제를 진단하는 CLI 도구입니다. 큐 압력, TTFT/TPOT, KV 캐시 상태 등을 규칙 기반으로 체크하여 원인과 권장 사항을 제공합니다.

도구 선택을 위해 시맨틱 임베딩 (Semantic Embeddings) 사용을 중단하고 BM25로 돌아간 이유

에이전트의 도구 선택(Tool Selection) 과정에서 시맨틱 임베딩 대신 BM25를 사용하는 것이 더 효과적임을 분석합니다. 짧고 구조화된 도구 설명의 특성상 코사인 유사도는 변별력이 떨어지며, BM25가 더 높은 정확도를 보였습니다.

[3090] Gemma 4 QAT + MTP 빠른 TPS 수치 [요약 1.2-1.8배 향상]

Gemma 4 모델에 QAT와 MTP 기술을 적용하여 RTX 3090과 같은 24GB 이하 GPU 환경에서 추론 속도(TPS)를 1.2~1.8배 향상시킨 사례를 소개합니다. llama-server 설정을 통해 멀티모달 및 텍스트 모델 모두에서 유의미한 성능 개선을 확인했습니다.

Luce Spark: 오프로드 비용 없이 16GB GPU에서 35B MoE 실행하기

Luce Spark는 16GB GPU 환경에서 35B 규모의 MoE 모델을 효율적으로 실행할 수 있게 해주는 오픈소스 기술입니다. 실시간 라우팅 데이터를 기반으로 자주 사용되는 '핫(hot)' 전문가를 GPU에 유지하고 나머지는 RAM에 두는 보정된 배치 방식을 사용합니다.

NanoQuant 구현: 유연한 이진 양자화 (Binary Quantization) 방법

NanoQuant 논문의 방법론을 바탕으로 밀집 트랜스포머 모델을 1비트 미만으로 압축하는 이진 양자화 구현체를 소개합니다. 행렬 인수분해를 통해 효율적인 압축을 달성하며, 소비자용 하드웨어에서도 미세 조정이 가능하도록 설계되었습니다.

OpenEnv가 HF, Torch, Prime Intellect, Unsloth, Modal, Mercor 등의 소유가 되었습니다! 에이전트

OpenEnv가 Hugging Face, PyTorch, Unsloth 등 주요 AI 기업 및 기관들의 위원회 체제로 전환됩니다. 에이전트 실행 환경을 오픈 소스로 구축하여 에이전트 학습의 미래를 개방적으로 발전시키는 것을 목표로 합니다.

Levi: 로컬 Qwen 30B에서 AlphaEvolve 실행하기

AlphaEvolve 스타일의 오픈 소스 시스템인 LEVI를 소개합니다. LEVI는 적절한 탐색 아키텍처를 통해 소형 모델로도 대형 모델을 능가하는 성능을 내며, 기존 프레임워크 대비 비용을 최대 35배 절감할 수 있습니다.

Latam GPT 1.0 출시

라틴 아메리카 데이터를 기반으로 학습된 Latam GPT 1.0 모델이 출시되었습니다. 미국이나 중국 모델보다 해당 지역의 언어와 문화에 최적화된 소버린 AI(Sovereign AI) 구축을 목표로 합니다.

Hopper 시스템에서 DeepSeek v4 Flash로 초당 약 200 토큰(tok/s)을 달성하는 몇 가지 팁

Hopper 시스템에서 DeepSeek v4 Flash 모델을 사용하여 초당 약 200 토큰의 속도를 달성하는 최적화 방법을 소개합니다. vLLM의 MTP 코드를 패치하고 Canada-Quant의 양자화 모델을 활용하여 효율성을 높였습니다.

이전10 / 14다음