arXiv논문2026. 06. 16. 13:13

에이전트 및 멀티모달 LLM을 위한 문맥 인식 강화학습 (Context-Aware RL)

요약

ContextRL은 긴 문맥이나 멀티모달 데이터에서 미세한 증거를 식별하도록 돕는 새로운 강화학습 방법론입니다. 대조적 문맥 선택을 통해 모델이 답변의 근거를 더 정확하게 설정하도록 유도하여 장기 추론 및 시각적 질의응답 성능을 향상시킵니다.

핵심 포인트

ContextRL은 간접적 보조 목적 함수를 통해 문맥 인식 능력을 강화함
질의-답변 쌍을 뒷받침하는 문맥을 선택할 때 보상을 부여하는 방식
코딩 에이전트 및 멀티모달 추론 도메인에서 데이터셋 구축
표준 GRPO 대비 장기 추론 및 VQA 벤치마크에서 성능 향상 입증
단순 데이터 증강보다 문맥 선택 목적 함수의 효과가 더 큼을 확인

대규모 언어 모델 (LLMs)은 도구 추적 (tool trace) 내의 단 한 줄이나 이미지의 미묘한 세부 사항처럼, 길거나 복잡한 문맥 내에서 작지만 결정적인 증거를 식별해야 하는 답변을 요구할 때 종종 실패합니다. 우리는 extit{간접적인} 보조 목적 함수 (auxiliary objective)를 통해 장기 추론 (long-horizon reasoning) 및 멀티모달 성능을 향상시키는 문맥 인식 강화학습 (RL) 방법인 ContextRL을 제안합니다. ContextRL은 최종 답변만을 감독하는 대신, 모델에게 질의 (query), 답변 (answer), 그리고 매우 유사한 두 개의 문맥 (contexts)을 제시하고, 질의-답변 쌍을 뒷받침하는 문맥을 선택했을 때 보상을 부여함으로써 세밀한 근거 설정 (fine-grained grounding)을 장려합니다. 우리는 두 가지 도메인에서 대조적 문맥 데이터 (contrastive context data)를 구축했습니다. 코딩 에이전트 (coding agents)의 경우, 조건 필터링 (condition filtering)을 통해 구축된 1k 개의 쌍을 생성하도록 궤적 (trajectories)을 문맥으로 사용했습니다. 멀티모달 추론 (multimodal reasoning)의 경우, 생성적 편집 (generative editing) 및 유사도 검색 (similarity search)을 통해 구축된 7K 개의 쌍을 생성하도록 이미지를 문맥으로 사용했습니다. ContextRL은 5개의 장기 추론 벤치마크에서 표준 GRPO 대비 평균 +2.2%의 이득을 달성했으며, 12개의 다양한 시각적 질의응답 (visual question answering) 벤치마크 전반에서 +1.8%의 이득을 달성했습니다. 제안된 목적 함수의 효과를 추가 데이터의 효과와 분리하기 위해, 우리는 동일한 대조적 문맥을 표준 질의-문맥-답변 예시로 재사용하는 데이터 증강 (data-augmentation) 베이스라인들과 비교했습니다. 이러한 베이스라인들은 개선 효과가 거의 없거나 전혀 없었으며, 이는 성능 향상이 대조적 데이터 자체보다는 제안된 문맥 선택 (context-selection) 목적 함수에서 비롯됨을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

에이전트 및 멀티모달 LLM을 위한 문맥 인식 강화학습 (Context-Aware RL)

요약

핵심 포인트

댓글