NVIDIA의 AXPO, 에이전트 추론 (agentic reasoning)에서의 도구 붕괴 현상 해결

NVIDIA의 AXPO가 에이전트 추론 (agentic reasoning)에서의 도구 붕괴 (tool collapse) 현상을 해결합니다.

8B Qwen3-VL 모델이 사고 접두사 (thought prefixes)를 동결하고 호출을 재샘플링 (resampling calls)함으로써 도구를 지속적으로 사용하는 법을 학습하며, 9개의 멀티모달 (multimodal) 벤치마크에서 32B 베이스라인을 능가합니다.

8B SFT + AXPO는 4배 적은 파라미터 (parameters)로 Pass@4에서 32B 베이스를 능가합니다.

논문 (Paper):
https://huggingface.co/papers/2605.28774

프로젝트 페이지 (Project page):
https://byungkwanlee.github.io/AXPO-page/

NEO-ov: 이미지 인코더 (image encoders)가 없는 시각-언어 모델 (vision-language models)

이 네이티브 파운데이션 모델 (native foundation model)은 픽셀-단어 대응 (pixel-to-word correspondence)을 엔드투엔드 (end-to-end)로 학습하여, 외부 인코더 (encoders)나 어댑터 (adapters) 없이 이미지, 비디오, 공간 지능 (spatial intelligence)을 통합합니다.

Insights

NVIDIA의 AXPO, 에이전트 추론 (agentic reasoning)에서의 도구 붕괴 현상 해결

요약

핵심 포인트

댓글

React 개발을 위한 Vite, 컴포넌트 및 npm 사용법

우버가 2026년 전체 AI 예산을 4개월 만에 소진한 사연 — 단 2시간 코딩 세션 비용이 $1,200

Mistral AI의 Robostral Navigate를 통한 물리적 AI 시장 진출

Fuels Littelfuse(LFUS)의 40% 급등세

React 개발을 위한 Vite, 컴포넌트 및 npm 사용법

우버가 2026년 전체 AI 예산을 4개월 만에 소진한 사연 — 단 2시간 코딩 세션 비용이 $1,200

Mistral AI의 Robostral Navigate를 통한 물리적 AI 시장 진출

Fuels Littelfuse(LFUS)의 40% 급등세