AI/ML 연구 요약 — 2026년 5월 30일 - Insights | Molayo

LLM 에이전트의 효율성 및 비용 절감

최근 연구들은 LLM (Large Language Model) 기반 에이전트의 높은 추론 비용 문제를 다룹니다.

온라인 기술 증류 (Online skill distillation)는 에이전트가 동작하는 동안 정책 (policy)을 압축하여, 성공률을 저해하지 않으면서 토큰 사용량을 줄입니다 [1].

그래프 가이드 지식 시스템 (graph-guided knowledge system)을 통해 동일한 에이전트가 휴대폰급 칩에서 GUI 작업을 직접 수행할 수 있게 하여, 지연 시간 (latency)과 에너지 요구량을 더욱 낮춥니다 [2].

검증 가능한 보상 및 안정적인 RL 사후 학습

신경 검증기 (Neural verifiers)가 더 저렴하고 말뭉치에 기반한 문장 수준의 보상 (sentence-level rewards)으로 대체되고 있으며, 이는 RLHF (Reinforcement Learning from Human Feedback)에서 사실성을 여전히 향상시킵니다 [3].

동적 분산 적응형 가중치 (Dynamic variance-adaptive weighting)는 다중 목표 최적화 (multi-objective optimization)를 안정화하여, 일반적으로 사후 학습 RL 미세 조정 (post-training RL fine-tuning)을 괴롭히는 진동 현상을 줄여줍니다 [4].

어댑터의 증류 및 파라미터 압축

여러 LoRA (Low-Rank Adaptation) 효과 모듈을 단일 증류 모델로 병합함으로써 어댑터 과부하 문제를 해결하고, 저장 공간과 추론 비용을 대폭 절감합니다 [5].

사후 선택된 행동 구간 (hindsight-selected action spans)을 선택하는 자기 증류 (Self-distillation)는 외부 라벨 없이도 유사한 이득을 달성하여 학습 루프를 간소화합니다 [6].

ScientistOne: 증거 체인 (Chain-of-Evidence) 프레임워크

검증 가능한 증거 파이프라인을 구축함으로써, ScientistOne은 자동화된 과학적 글쓰기에서 허위 인용을 제거하며 일련의 무결성 검사에서 완벽한 점수를 기록합니다 [7].

그 결과, 문헌 검토 (literature-review) 작업에 대해 더욱 신뢰할 수 있는 생성 파이프라인을 제공합니다.

Long-Context 워크로드를 위한 ThriftAttention

ThriftAttention은 Query-Key 블록의 5%를 FP16으로, 나머지는 FP4로 계산하여 메모리와 연산량을 줄이는 동시에, 저정밀도 산술 연산 (low-precision arithmetic)으로 인해 손실되는 품질의 약 90%를 다시 확보합니다 \u2047.

이를 통해 평범한 하드웨어에서도 진정한 의미의 롱 컨텍스트 (long-context) 추론이 가능해집니다.

NAVA: 네이티브 오디오-비주얼 정렬 (Native Audio-Visual Alignment)

NAVA는 공동 디노이징 (joint denoising)을 수행하기 전에 오디오와 비주얼 스트림을 먼저 정렬하는 전용 상호작용 공간을 도입하여, 단 6.3B 파라미터만으로도 더 긴밀한 동기화와 더 미세한 음색 (timbre) 제어를 구현합니다 \u2048.

이 접근 방식은 모달리티 특화 정렬 (modality-specific alignment)이 더 크고 집중도가 낮은 모델을 대체할 수 있음을 보여줍니다.

훈련 분포에 기인한 위치 편향 (Position Bias)

분석 결과, 밀집 리트리버 (dense retriever)의 위치 편향은 주로 왜곡된 훈련 데이터에서 비롯됩니다. 해당 분포의 균형을 재조정하면 편향을 57~87%까지 줄일 수 있습니다 \u2049.

이러한 근원을 이해하는 것은 아키텍처 측면의 임시방편 (architectural hacks)보다는 데이터 중심의 해결책 (data-centric fixes)을 지향해야 함을 시사합니다.

LoRA를 위한 파라미터 메모리 법칙 (Parametric Memory Law)

새롭게 유도된 메모리 법칙은 LoRA가 얼마나 많은 정보를 저장할 수 있는지 정량화합니다.

이 법칙을 사용하여 임계값 가이드 최적화기 (threshold-guided optimizer)를 적용하면 다운스트림 태스크 (downstream tasks)에서의 메모리 충실도 (fidelity)와 재현율 (recall)을 향상시킬 수 있습니다 \u204\u204a.

확산 노이즈의 스펙트럼 편향 (Spectral Bias in Diffusion Noise)

표준 균등 노이즈 (uniform noise)를 주파수 의존형 스케줄 (Colored Noise Sampling)로 교체하면 확산 모델 (diffusion model)의 고유한 스펙트럼 편향을 활용할 수 있으며, FID 점수를 눈에 띄게 낮출 수 있습니다 \u204\u204b.

이 기술은 샘플 품질을 높이는 저비용 방법을 제공합니다.

AI/ML 연구 요약 — 2026년 5월 30일

요약

핵심 포인트

참고 문헌

댓글