긴 문맥 추론을 위한 증거 상태 보상 (Evidence-State Rewards)

긴 문맥 추론 (Long-context reasoning)은 모델이 긴 입력값 전체에 분산된 증거를 찾아내고, 수정하며, 합성하는 능력을 요구합니다. 기존의 긴 문맥 강화학습 (RL) 방법들은 주로 최종 답변이나 정적인 증거 추출에 보상을 부여하며, 중간 단계의 행동이 모델의 증거 상태 (evidence state)를 어떻게 변화시키는지에 대한 피드백은 거의 제공하지 못합니다. 우리는 편집 가능한 증거 메모리 (editable evidence memory)를 갖춘 강화학습 프레임워크인 Maven을 제안합니다. Maven은 답변 조건부 증거 상태 가치 (answer-conditioned evidence-state value)를 정의하고 행동 수준의 상태 전이 (action-level state transitions)에 보상을 부여합니다. 즉, 추가 (add) 행동은 한계 이득 (marginal gain)과 사후 기여도 (hindsight contribution)에 따라 보상을 받고, 연결 (link) 행동은 증거 시너지 (evidence synergy)에 따라, 그리고 삭제 (drop) 행동은 오도하는 증거를 제거한 후 답변 지원도가 향상된 정도에 따라 보상을 받습니다. 이러한 보상들은 GRPO 내의 해당 행동 구간 (action spans)에 할당됩니다. LongBench v2, LongReason, RULER 데이터셋에 대해 Llama 및 Qwen 모델을 대상으로 실험한 결과, Maven은 결과 중심 RL (outcome-only RL) 및 증거 식별 (evidence-identification) 베이스라인보다 뛰어난 성능을 보였으며, 더 충분한 증거 세트를 생성하고 방해 요소 유지 (distractor retention)를 낮추었습니다. 우리의 결과는 긴 문맥 RL이 일회성 증거 추출 (one-shot evidence extraction)보다는 상태 기반의 증거 탐색 (stateful evidence navigation)을 최적화함으로써 이득을 얻는다는 것을 보여줍니다.

Insights

긴 문맥 추론을 위한 증거 상태 보상 (Evidence-State Rewards)

요약

핵심 포인트

댓글

Claude Code가 파일을 다시 읽고 명령 출력을 확인하며 낭비하는 토큰 양을 일주일 동안 측정해 보았습니다. 약 1,050만 개에

Claude Code에서 Grok으로 전환하기 – 동일한 인터페이스, 다른 모델

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화

Claude Code가 파일을 다시 읽고 명령 출력을 확인하며 낭비하는 토큰 양을 일주일 동안 측정해 보았습니다. 약 1,050만 개에

Claude Code에서 Grok으로 전환하기 – 동일한 인터페이스, 다른 모델

결정 피로가 당신의 AI 워크플로우를 망치고 있습니다 (해결책 포함)

MER-TRANS 2026에서의 HULAT2: 스페인어 쉬운 읽기(Easy-to-Read) 생성을 위한 제어된 멀티 에이전트 단순화