본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 11:31

AdaptR1: 멀티홉 질의응답(Multi-hop QA)에서의 강화학습(RL) 기반 적응형 인터리브 사고(Adaptive Interleaved

요약

AdaptR1은 멀티홉 질의응답 시 발생하는 과잉 사고 문제를 해결하기 위해 강화학습 기반의 적응형 인터리브 사고 프레임워크를 제안합니다. 각 단계마다 추론 예산을 동적으로 할당하여 성능을 유지하면서도 불필요한 사고 토큰을 획기적으로 줄입니다.

핵심 포인트

  • 강화학습 기반의 적응형 인터리브 사고 프레임워크 제안
  • SFT 없이 품질 게이트 효율성 보상을 통한 완전한 RL 전략 사용
  • HotpotQA 기준 평균 사고 토큰을 약 69.71% 감소시킴
  • 과잉 사고가 주로 초기 계획 단계에서 발생함을 규명

대규모 언어 모델(Large Language Models, LLMs)은 사고 사슬(Chain-of-Thought, CoT) 프롬프팅을 통해 복잡한 추론 작업에서 놀라운 성능을 달성했습니다. 그러나 이러한 접근 방식은 모델이 단순한 질의에 대해 불필요하게 긴 추론 흔적(reasoning traces)을 생성하여 피할 수 있는 추론 비용을 발생시키는 "과잉 사고(over-thinking)"로 이어지는 경우가 많습니다. 최근 연구들이 적응형 추론(adaptive reasoning)을 탐구해 왔으나, 기존 방법들은 일반적으로 추론 여부에 대해 단일한 질의 수준(query-level)의 결정만을 내립니다. 이는 중간 단계마다 명시적인 추론의 필요성이 달라지는 다단계 작업의 동적인 특성을 간과합니다. 이러한 한계를 해결하기 위해, 우리는 멀티홉 질의응답(Multi-hop Question Answering, QA)에서 적응형 인터리브 사고(adaptive interleaved thinking)를 위한 강화학습(Reinforcement Learning, RL) 기반 프레임워크인 AdaptR1을 소개합니다. 콜드 스타트 초기화(cold-start initialization)를 위해 지도 미세 조정(Supervised Fine-Tuning, SFT)을 요구하는 이전 접근 방식과 달리, AdaptR1은 품질 게이트 효율성 보상(quality-gated efficiency reward)을 갖춘 완전한 RL 기반 전략을 사용하여 각 단계에서 추론 예산(reasoning budgets)을 동적으로 할당합니다. Graph-R1 설정 하에서 AdaptR1은 표준 베이스라인과 비슷하거나 더 나은 성능을 유지하면서도, HotpotQA에서 90.35% 감소, 평균 사고 토큰(think tokens)을 69.71% 감소시켰습니다. 나아가 우리의 분석은 멀티홉 추론에서의 과잉 사고가 균일하게 분포되어 있는 것이 아니라 주로 초기 계획 단계에서 발생한다는 것을 밝혀냈으며, 이는 단계별 적응형 예산 할당의 효과를 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0