본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

r/LocalLLaMA분석

--n-cpu-moe로 부분 오프로드된 모델의 프롬프트 처리 속도를 획기적으로 개선하기

llama.cpp를 사용하여 RTX 3090 환경에서 gpt-oss-120b 모델을 구동할 때, --n-cpu-moe 설정을 높여 MoE 레이어를 CPU로 오프로드하면 더 큰 ubatch 크기를 사용할 수 있습니다. 이를 통해 프롬프트 처리(prefill) 속도를 최대 8.7배까지 획기적으로 향상시킬 수 있으나, 토큰 생성 속도는 약간 감소하는 트레이드오프가 발생합니다.

llama.cppmoegpu-optimization
1일 전4
arXiv논문

Mind the Pause: LLM을 이용한 다국어 음성 교정을 위한 비유창성 인지 목적 함수 튜닝

본 논문은 ASR 전사 데이터에 포함된 비유창성(fillers, repetitions 등)을 효과적으로 제거하기 위해 LLM의 지시어 미세 조정과 대조 학습을 결합한 다국어 교정 파이프라인을 제안합니다. 기존의 단순 탐지 방식이 문법적 일관성을 해치는 문제를 해결하기 위해, 시퀀스 태거의 신호를 활용하여 텍스트를 유창하게 재작성하며 비유창한 토큰의 재현에 페널티를 부여합니다. 인도 3개 언어 실험을 통해 기존 베이스라인 대비 우수한 성능과 문법적/의미적 보존 능력을 입증했습니다.

llmasrdisfluency-correction
1일 전4
arXiv논문

KAN-CL: Kolmogorov-Arnold Networks를 이용한 지속 학습 (Continual Learning)을 위한 매듭별 중요도

KAN-CL은 Kolmogorov-Arnold Networks(KANs)의 스플라인 파라미터화 특성을 활용하여 지속 학습 시 발생하는 치명적 망각 문제를 해결하는 새로운 프레임워크입니다. 매듭(Knot) 단위의 세밀한 중요도 가중 앵커링과 백본 정규화(bbEWC)를 결합하여, 기존 방식 대비 망각을 획기적으로 감소시키고 높은 정확도를 유지합니다.

continual-learningkankolmogorov-arnold-networks
1일 전3
Zenn헤드라인

Grammi의 영문 해석이 왜 「하이브리드 방식 (Rule x AI)」인지 해설

영어 학습 서비스 Grammi는 AI 단독 방식의 불안정성과 룰 기반 방식의 의미 해석 한계를 극복하기 위해 하이브리드 엔진을 채택했습니다. spaCy를 통해 문장의 구조적 골격을 먼저 추출한 뒤, Claude와 같은 AI가 이를 검증하고 교육적인 해설을 덧붙이는 2단계 파이프라인을 구축하여 분석의 안정성과 풍부한 해설을 동시에 확보했습니다.

nlphybrid-approachai-implementation
1일 전3
Deep Tech요약

Cline, CLI, VS Code, JetBrains ve Kanban'ı destekleyen ve herhangi bir ekibin

Cline은 오픈 소스 에이전트 작업 환경인 Cline SDK를 출시했습니다. 이 SDK는 CLI, VS Code, JetBrains 및 Kanban을 지원하며, 모든 팀이 이를 기반으로 구축할 수 있도록 합니다. Cline CLI는 Claude-Opus-4.7 모델로 Terminal Bench 2.0에서 높은 점수를 기록했으며, 무상태 루프, 상태ful 오케스트레이션 등 다양한 기능을 제공합니다.

agent-frameworkclivscode
1일 전1
OpenAI헤드라인

API의 새로운 모델들을 통한 음성 지능 (voice intelligence)의 발전

본 기사는 개발자들이 세 가지 새로운 오디오 모델(GPT-Realtime-2, GPT-Realtime-Translate, GPT-Realtime-Whisper)을 활용하여 더욱 자연스럽고 지능적인 음성 앱을 구현할 수 있도록 API를 확장했음을 설명합니다. 이 모델들은 복잡한 추론 능력, 실시간 다국어 번역, 스트리밍 STT 기능을 제공하며, 단순한 질의응답을 넘어선 진화된 음성 인터페이스 구축을 가능하게 합니다. 음성 AI는 이제 'Voice-to-action', 'Systems-to-voice', 'Voice-to-voice'와 같은 세 가지 패턴으로 발전하고 있으며, GPT-Realtime-2와 같은 새로운 기능들은 에이전트가 작업 처리 과정과 실패 상황까지도 사용자에게 자연스럽게 전달하며 대화를 지속할 수 있도록 돕습니다.

voice-airealtime-audiospeech-to-text
1일 전4
Reddit요약

높은 RAM 가격으로 인해 DIY 시장 하락세

NVIDIA GPU 업그레이드 둔화와 CPU 및 메모리 가격 상승, 그리고 전반적인 공급망 압박이 결합되면서 PC DIY 시장이 심각한 침체기에 접어들었습니다. 주요 메인보드 제조업체들은 2026년 출하 목표를 대폭 하향 조정했으며, 특히 소비자용 CPU와 메모리의 부족 및 가격 상승이 판매 감소의 주된 원인으로 지목됩니다. AI 수요 증가로 인해 고성능 데이터 센터 플랫폼(Xeon, EPYC)에 생산 능력이 우선 배분되면서 일반 소비자용 부품의 공급이 어려워졌고, 게이밍 시장을 이끌던 NVIDIA 역시 AI GPU 매출 증대 덕분에 차세대 제품 업데이트가 지연되고 있습니다.

pc-marketdiy-pccpu-shortage
1일 전5
GH Trending릴리즈

graphdeco-inria/gaussian-splatting

본 구현은 '3D Gaussian Splatting for Real-Time Radiance Field Rendering' 논문과 관련된 공식 코드를 제공하며, 실시간 시점 합성(novel-view synthesis)을 가능하게 합니다. 기존의 복사 휘도장 방법론이 높은 품질을 위해 느렸던 문제를 해결하기 위해, 3D Gaussians를 사용하여 장면을 표현하고 비등방성 스플래팅 및 가시성 인식 렌더링 알고리즘을 도입했습니다. 이를 통해 1080p 해상도에서 실시간(≥ 30 fps) 고품질 시점 합성을 달성하는 것이 가능해졌습니다.

3d-gaussian-splattingnovel-view-synthesisradiance-field
1일 전3
Open Source요약

Anthropic이 방금 25분 분량의 무료 프롬프팅 (Prompting) 클래스를 공개했습니다.

Anthropic의 Claude 개발팀이 실제 사례를 통해 효과적인 프롬프팅 기법을 공개했습니다. 이들은 보험 양식 분석과 과실 결정이라는 작업을 예로 들어, 단순한 지시보다 구조화된 XML 태그 사용, 시스템 프롬프트 내 정적 컨텍스트 활용, 그리고 사람이 작업하는 순서에 따른 단계별 지침 제공이 중요함을 강조합니다. 이러한 체계적인 접근 방식을 통해 초기 버전 대비 프로덕션 수준의 정확하고 일관된 출력을 얻을 수 있습니다.

prompt-engineeringclaudellm
1일 전4
GH Trending릴리즈

EleutherAI/lm-evaluation-harness

EleutherAI/lm-evaluation-harness는 생성형 언어 모델을 다양한 학술 벤치마크에서 테스트할 수 있는 통합 평가 프레임워크입니다. 이 프로젝트는 60개 이상의 LLM 표준 벤치마크를 지원하며, vLLM, OpenAI API, HuggingFace PEFT 등 다양한 백엔드를 통해 빠르고 유연한 추론 및 평가 기능을 제공합니다. 최근 업데이트에서는 CLI 리팩토링, YAML 설정 파일 지원, 멀티모달 입력/출력 기능 추가, 그리고 새로운 Open LLM Leaderboard 태스크들이 포함되었습니다.

llmevaluationbenchmark
1일 전4
CNBC헤드라인

SoftBank가 이 영국 AI 칩 기업에 4억 5,000만 달러를 투입했습니다

일본의 투자 거물 SoftBank가 영국 기반의 AI 칩 개발 기업 Graphcore에 4억 5,700만 달러 규모의 자금을 투입했습니다. 이 자금은 Graphcore가 인공 일반 지능(AGI) 개발을 목표로 SoftBank와 협력하는 과정에서 나온 것으로 보입니다. SoftBank는 OpenAI 및 Oracle과의 대규모 프로젝트 참여 등 AI 인프라 분야에 지속적으로 막대한 투자를 진행하고 있으며, 향후 미국 내 독립적인 AI 기업 설립 및 프랑스 데이터 센터 프로젝트 논의도 진행 중인 것으로 알려졌습니다.

softbankgraphcoreai-chips
1일 전2
GH Trending릴리즈

jakevdp/PythonDataScienceHandbook

이 저장소는 Python Data Science Handbook 전체 내용을 Jupyter notebooks 형태로 무료로 제공합니다. 사용자는 온라인 링크, Google Colab, 또는 binder를 통해 코드를 실행할 수 있으며, 이 책은 IPython, NumPy, Pandas, Matplotlib, Scikit-Learn 등 데이터 과학에 필수적인 핵심 라이브러리를 다룹니다.

pythondata-sciencejupyter-notebooks
1일 전1
X요약

NVIDIA가 Hugging Face에 AnyFlow를 출시했습니다

NVIDIA가 Hugging Face에 AnyFlow라는 새로운 텍스트-투-비디오(text-to-video) 확산 모델을 출시했습니다. 이 모델은 추론 예산과 관계없이 고품질의 비디오를 생성할 수 있는 최초의 any-step 비디오 확산 모델로, 단계 수(예: 4단계 또는 50단계)가 변해도 품질 저하 없이 매끄럽게 확장되는 것이 특징입니다.

nvidiahuggingfacetext-to-video
1일 전5
HN분석

이스라엘의 AI 표적 시스템 내부: 휴대폰 데이터가 어떻게 사형 선고가 되는가

이스라엘 군은 스마트폰 데이터, 드론, 소셜 미디어 등 다양한 출처의 데이터를 융합하여 Hezbollah(헤즈볼라) 표적을 식별하는 AI 기반 시스템을 운용하고 있습니다. 이 시스템은 방대한 데이터 파이프라인을 통해 개인의 위치, 관계, 활동을 추적하며, 전문가들은 이러한 알고리즘 기반의 표적 지정이 민간인을 오인할 위험이 있다고 경고합니다.

artificial intelligencesurveillancedata fusion
1일 전4
arXiv논문

Large Language Models의 긴 문맥 추론을 위한 On-Policy 최적화와 증류(Distillation)의 결합

본 논문은 LLM의 긴 문맥 추론 능력을 향상시키기 위해 On-policy 증류와 GRPO를 결합한 dGRPO 방법론을 제안합니다. 기존 Off-policy 방식의 노출 편향 문제와 On-policy 방식의 낮은 샘플 효율성 문제를 동시에 해결하며, 이를 검증하기 위한 합성 데이터셋인 LongBlocks를 함께 소개합니다.

llmlong-contextreinforcement-learning
1일 전5
TNP헤드라인

연산 및 메모리 가격 상승으로 인해 IT 지출이 훨씬 더 높아짐

연산 및 메모리 부품의 수요 급증과 공급 부족으로 인해 IT 지출이 역대 최고치를 기록할 전망입니다. 특히 GenAI 열풍으로 인해 Anthropic, OpenAI와 같은 AI 모델 구축 기업들의 인프라 투자가 가속화되면서, 데이터센터 시스템 지출이 폭발적으로 성장하고 있습니다.

it spendinggenerative aidatacenter
1일 전4
arXiv논문

LISA: 신호 없는 자율 교차로 관리를 위한 인지적 중재 (Cognitive Arbitration)

LISA는 LLM을 활용하여 차량의 의도를 추론하고 신호등 없이 자율적으로 교차로를 관리하는 인지적 중재 프레임워크입니다. 기존 시스템이 신호 인프라에 의존하거나 의도 인식이 부족했던 한계를 극복하여, 대기 시간을 획기적으로 줄이고 연료 소비를 절감하는 성능을 입증했습니다.

llmautonomous-drivingintelligent-transportation-systems
1일 전3
arXiv논문

지도 미세 조정 (Supervised Finetuning)된 모델로부터 개인 식별 정보 (PII)의 재구성

본 논문은 지도 미세 조정(SFT)된 모델이 학습 데이터에 포함된 개인 식별 정보(PII)를 유출할 수 있는 위험성을 처음으로 연구합니다. 의료 및 법률 분야의 다회차 Q&A 데이터셋을 구축하여 공격자의 추론 능력을 평가하였으며, 기존 방식보다 뛰어난 성능을 보이는 새로운 디코딩 알고리즘인 COVA를 제안합니다.

llmprivacysupervised-finetuning
1일 전4
arXiv논문

Feature Association Map을 이용한 AI 설명 가능성을 위한 새로운 기술

AI 시스템의 투명성과 신뢰성을 높이기 위해 특징 집합의 그래프 이론적 정식화를 활용한 새로운 XAI 알고리즘인 FAMeX를 제안합니다. FAMeX는 특징 간의 연관성을 기반으로 하는 Feature Association Map(FAM)을 모델링의 기초로 삼습니다. 실험 결과, FAMeX는 분류 작업에서 기존의 PFI 및 SHAP보다 우수한 특징 중요도 측정 성능을 보여주었습니다.

xaiexplainable-aifeature-importance
1일 전3
Reddit요약

DeepSeek-V4-Flash W4A16+FP8 with MTP self-speculation: 85 tok/s @ 524k on 2×

DeepSeek-V4-Flash 모델을 2개의 RTX PRO 6000 Max-Q 환경에서 구동했을 때, 524k 컨텍스트 길이에서 85.52 tok/s의 높은 처리 속도를 달성했습니다. 이 과정에서 MTP 헤드 로딩 문제와 vLLM의 CustomAllreduce 사용 시 발생하는 데드락 문제를 해결하기 위해 `--disable-custom-all-reduce` 플래그를 반드시 적용해야 합니다. 또한, 최적의 성능을 위해서는 특정 NCCL 튜닝과 패치된 vLLM 포크 사용이 필수적입니다.

deepseek-v4llmquantization
1일 전3

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.