긴 문맥 추론을 위한 증거 상태 보상 (Evidence-State Rewards)
요약
긴 문맥 추론 능력을 향상시키기 위해 증거 상태 변화에 보상을 주는 강화학습 프레임워크 Maven을 제안합니다. Maven은 증거의 추가, 연결, 삭제 행동에 따라 정교한 보상을 설계하여 모델이 효과적으로 증거를 탐색하도록 돕습니다.
핵심 포인트
- 편집 가능한 증거 메모리를 활용한 강화학습 프레임워크 Maven 제안
- 행동 수준의 상태 전이에 보상을 부여하여 증거 탐색 최적화
- Llama 및 Qwen 모델 실험을 통해 기존 방식 대비 우수한 성능 입증
- 방해 요소 유지율을 낮추고 더 충분한 증거 세트 생성 가능
긴 문맥 추론 (Long-context reasoning)은 모델이 긴 입력값 전체에 분산된 증거를 찾아내고, 수정하며, 합성하는 능력을 요구합니다. 기존의 긴 문맥 강화학습 (RL) 방법들은 주로 최종 답변이나 정적인 증거 추출에 보상을 부여하며, 중간 단계의 행동이 모델의 증거 상태 (evidence state)를 어떻게 변화시키는지에 대한 피드백은 거의 제공하지 못합니다. 우리는 편집 가능한 증거 메모리 (editable evidence memory)를 갖춘 강화학습 프레임워크인 Maven을 제안합니다. Maven은 답변 조건부 증거 상태 가치 (answer-conditioned evidence-state value)를 정의하고 행동 수준의 상태 전이 (action-level state transitions)에 보상을 부여합니다. 즉, 추가 (add) 행동은 한계 이득 (marginal gain)과 사후 기여도 (hindsight contribution)에 따라 보상을 받고, 연결 (link) 행동은 증거 시너지 (evidence synergy)에 따라, 그리고 삭제 (drop) 행동은 오도하는 증거를 제거한 후 답변 지원도가 향상된 정도에 따라 보상을 받습니다. 이러한 보상들은 GRPO 내의 해당 행동 구간 (action spans)에 할당됩니다. LongBench v2, LongReason, RULER 데이터셋에 대해 Llama 및 Qwen 모델을 대상으로 실험한 결과, Maven은 결과 중심 RL (outcome-only RL) 및 증거 식별 (evidence-identification) 베이스라인보다 뛰어난 성능을 보였으며, 더 충분한 증거 세트를 생성하고 방해 요소 유지 (distractor retention)를 낮추었습니다. 우리의 결과는 긴 문맥 RL이 일회성 증거 추출 (one-shot evidence extraction)보다는 상태 기반의 증거 탐색 (stateful evidence navigation)을 최적화함으로써 이득을 얻는다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기