arXiv논문2026. 06. 01. 11:31

AdaptR1: 멀티홉 질의응답(Multi-hop QA)에서의 강화학습(RL) 기반 적응형 인터리브 사고(Adaptive Interleaved

요약

AdaptR1은 멀티홉 질의응답 시 발생하는 과잉 사고 문제를 해결하기 위해 강화학습 기반의 적응형 인터리브 사고 프레임워크를 제안합니다. 각 단계마다 추론 예산을 동적으로 할당하여 성능을 유지하면서도 불필요한 사고 토큰을 획기적으로 줄입니다.

핵심 포인트

강화학습 기반의 적응형 인터리브 사고 프레임워크 제안
SFT 없이 품질 게이트 효율성 보상을 통한 완전한 RL 전략 사용
HotpotQA 기준 평균 사고 토큰을 약 69.71% 감소시킴
과잉 사고가 주로 초기 계획 단계에서 발생함을 규명

대규모 언어 모델(Large Language Models, LLMs)은 사고 사슬(Chain-of-Thought, CoT) 프롬프팅을 통해 복잡한 추론 작업에서 놀라운 성능을 달성했습니다. 그러나 이러한 접근 방식은 모델이 단순한 질의에 대해 불필요하게 긴 추론 흔적(reasoning traces)을 생성하여 피할 수 있는 추론 비용을 발생시키는 "과잉 사고(over-thinking)"로 이어지는 경우가 많습니다. 최근 연구들이 적응형 추론(adaptive reasoning)을 탐구해 왔으나, 기존 방법들은 일반적으로 추론 여부에 대해 단일한 질의 수준(query-level)의 결정만을 내립니다. 이는 중간 단계마다 명시적인 추론의 필요성이 달라지는 다단계 작업의 동적인 특성을 간과합니다. 이러한 한계를 해결하기 위해, 우리는 멀티홉 질의응답(Multi-hop Question Answering, QA)에서 적응형 인터리브 사고(adaptive interleaved thinking)를 위한 강화학습(Reinforcement Learning, RL) 기반 프레임워크인 AdaptR1을 소개합니다. 콜드 스타트 초기화(cold-start initialization)를 위해 지도 미세 조정(Supervised Fine-Tuning, SFT)을 요구하는 이전 접근 방식과 달리, AdaptR1은 품질 게이트 효율성 보상(quality-gated efficiency reward)을 갖춘 완전한 RL 기반 전략을 사용하여 각 단계에서 추론 예산(reasoning budgets)을 동적으로 할당합니다. Graph-R1 설정 하에서 AdaptR1은 표준 베이스라인과 비슷하거나 더 나은 성능을 유지하면서도, HotpotQA에서 90.35% 감소, 평균 사고 토큰(think tokens)을 69.71% 감소시켰습니다. 나아가 우리의 분석은 멀티홉 추론에서의 과잉 사고가 균일하게 분포되어 있는 것이 아니라 주로 초기 계획 단계에서 발생한다는 것을 밝혀냈으며, 이는 단계별 적응형 예산 할당의 효과를 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AdaptR1: 멀티홉 질의응답(Multi-hop QA)에서의 강화학습(RL) 기반 적응형 인터리브 사고(Adaptive Interleaved

요약

핵심 포인트

댓글