본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 29. 02:35

NVIDIA의 AXPO, 에이전트 추론 (agentic reasoning)에서의 도구 붕괴 현상 해결

요약

NVIDIA의 AXPO는 에이전트 추론 시 발생하는 도구 붕괴 현상을 해결하는 기술입니다. 8B Qwen3-VL 모델에 적용 시 사고 접두사를 동결하고 호출을 재샘플링하여, 훨씬 큰 32B 모델보다 뛰어난 성능을 보여줍니다.

핵심 포인트

  • AXPO를 통해 에이전트의 도구 사용 지속성 문제 해결
  • 8B 모델이 32B 베이스라인을 능가하는 효율성 증명
  • 사고 접두사 동결 및 호출 재샘플링 기법 활용
  • 이미지, 비디오, 공간 지능을 통합한 네이티브 모델 NEO-ov 소개

NVIDIA의 AXPO가 에이전트 추론 (agentic reasoning)에서의 도구 붕괴 (tool collapse) 현상을 해결합니다.

8B Qwen3-VL 모델이 사고 접두사 (thought prefixes)를 동결하고 호출을 재샘플링 (resampling calls)함으로써 도구를 지속적으로 사용하는 법을 학습하며, 9개의 멀티모달 (multimodal) 벤치마크에서 32B 베이스라인을 능가합니다.

8B SFT + AXPO는 4배 적은 파라미터 (parameters)로 Pass@4에서 32B 베이스를 능가합니다.

논문 (Paper):
https://huggingface.co/papers/2605.28774

프로젝트 페이지 (Project page):
https://byungkwanlee.github.io/AXPO-page/

NEO-ov: 이미지 인코더 (image encoders)가 없는 시각-언어 모델 (vision-language models)

이 네이티브 파운데이션 모델 (native foundation model)은 픽셀-단어 대응 (pixel-to-word correspondence)을 엔드투엔드 (end-to-end)로 학습하여, 외부 인코더 (encoders)나 어댑터 (adapters) 없이 이미지, 비디오, 공간 지능 (spatial intelligence)을 통합합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0