arXiv논문2026. 06. 01. 12:02

LongTraceRL: 루브릭 보상(Rubric Rewards)을 활용한 검색 에이전트 궤적 기반의 장문 맥락 추론 학습

요약

LongTraceRL은 장문 맥락 추론 능력을 향상시키기 위해 루브릭 보상(Rubric Rewards)을 활용한 새로운 강화학습 방법론을 제안합니다. 계층적 방해 요소를 포함한 도전적인 데이터셋과 엔티티 수준의 과정 감독을 통해 모델의 증거 기반 추론 성능을 극대화합니다.

핵심 포인트

계층적 방해 요소를 활용한 고난도 학습 맥락 구축
루브릭 보상을 통한 세밀한 엔티티 수준의 과정 감독
보상 해킹 방지를 위한 Positive-only 전략 채택
5개 벤치마크에서 기존 베이스라인 모델 능가 입증

장문 맥락 추론(Long-context reasoning)은 대규모 언어 모델(LLM)의 핵심 과제로 남아 있으며, 모델들은 방대한 방해 콘텐츠 속에서 핵심 정보를 찾아 통합하는 데 종종 실패합니다. 검증 가능한 보상을 활용한 강화학습(RLVR, Reinforcement learning with verifiable rewards)은 이 작업에 유망한 가능성을 보여주었으나, 기존 방법들은 혼동 가능성이 낮은 방해 요소(distractors)와 중간 추론 단계를 감독할 수 없는 희소한 결과 중심의 보상 신호라는 한계가 있습니다. 이러한 문제를 해결하기 위해, 우리는 \textsc{LongTraceRL}을 소개합니다. 데이터 구축을 위해, 우리는 지식 그래프(knowledge graph)의 랜덤 워크(random walks)를 통해 다단계(multi-hop) 질문을 생성하고, 검색 에이전트의 궤적(trajectories)을 활용하여 \emph{계층적 방해 요소(tiered distractors)}를 구축합니다. 이는 에이전트가 읽었지만 인용하지 않은 문서(높은 혼동 가능성)와 검색 결과에는 나타났지만 한 번도 열어보지 않은 문서(낮은 혼동 가능성)로 구성되며, 이를 통해 무작위 샘플링이나 단발성 검색(one-shot search)으로 구축된 것보다 훨씬 더 도전적인 학습 맥락을 생성합니다. 보상 설계의 경우, 각 추론 체인을 따라가는 정답 엔티티(gold entities)를 세밀한 엔티티 수준의 과정 감독(process supervision)으로 사용하는 \emph{루브릭 보상(rubric reward)}을 제안합니다. 이 루브릭 보상은 최종 정답이 올바른 응답에만 적용되는 (positive-only strategy) 방식을 취하여, 정답 응답들 사이의 추론 품질을 차별화하고 보상 해킹(reward hacking)을 방지합니다. 5개의 장문 맥락 벤치마크에 대해 세 가지 추론 LLM(4B--30B)을 대상으로 진행한 실험 결과, \textsc{LongTraceRL}은 강력한 베이스라인 모델들을 일관되게 능가하며 포괄적이고 증거에 기반한 추론을 촉진함을 입증했습니다. 코드, 데이터셋 및 모델은 \href{https://github.com/THU-KEG/LongTraceRL}{https://github.com/THU-KEG/LongTraceRL}에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LongTraceRL: 루브릭 보상(Rubric Rewards)을 활용한 검색 에이전트 궤적 기반의 장문 맥락 추론 학습

요약

핵심 포인트

댓글