arXiv논문2026. 06. 29. 11:18

Reflect-R1: 긴 영상 이해를 위한 증거 기반 성찰 및 자기 수정 (Self-Correction)

요약

긴 영상 이해를 위해 외부 시각적 증거를 활용하는 Reflect-R1 프레임워크를 제안합니다. 직관, 검증, 중재의 3단계 파이프라인과 단계 분리형 강화학습(SD-GRPO)을 통해 모델의 환각 현상을 줄이고 자기 수정 능력을 극대화했습니다.

핵심 포인트

외부 증거 기반의 3단계 성찰 파이프라인 구축
SD-GRPO 알고리즘을 통한 정책 결합 문제 해결
12만 개의 샘플로 구성된 전용 데이터셋 구축
VideoMME 등 벤치마크에서 SOTA 성능 달성

현재 긴 영상 이해 (Long Video Understanding)를 위한 멀티모달 성찰 (Multimodal Reflection) 메커니즘은 주로 내부 파라미터 내에서의 폐쇄 루프 자기 성찰 (Closed-loop Self-reflection)에 의존합니다. 객관적인 외부 증거가 부족하기 때문에, 모델은 빈번하게 맹목적인 확신 (Blind Confidence)에 빠지며 오류를 수정하는 데 실패하는 경우가 많습니다. 또한, 다단계 성찰 파이프라인 (Multi-stage Reflection Pipeline)에 강화학습 (Reinforcement Learning)을 적용하는 것은 심각한 정책 결합 (Policy Coupling) 문제를 야기하며, 이는 전용 학습 데이터의 결정적인 부족으로 인해 더욱 악화됩니다. 이러한 한계를 해결하기 위해, 본 연구는 긴 영상 이해를 위한 최초의 증거 기반 (Evidence-Driven) 자기 수정 프레임워크인 Reflect-R1을 제안합니다. 이 프레임워크는 직관 (Intuition), 검증 (Verification), 중재 (Arbitration)로 구성된 3단계 파이프라인을 구축합니다. 초기 직관을 검증하기 위해 객관적인 시각적 증거를 동적으로 검색하고, 갈등을 해결하기 위해 여러 차례의 시간적 탐색 (Temporal Searches)을 자율적으로 실행함으로써 환각 루프 (Hallucination Loop)를 완전히 깨뜨립니다. 정책 결합을 극복하기 위해, 우리는 서로 다른 추론 단계에 걸쳐 어드밴티지 함수 (Advantage Functions)를 독립적으로 계산하는 SD-GRPO라는 단계 분리형 강화학습 (Stage-decoupled Reinforcement Learning) 알고리즘을 설계했습니다. 이와 동시에, 학습 데이터의 격차를 메우기 위해 12만 개의 샘플로 구성된 데이터셋을 구축했습니다. VideoMME 및 LongVideoBench와 같은 벤치마크에서의 광범위한 실험을 통해 Reflect-R1이 최첨단 (State-of-the-art) 성능을 달성함을 입증했습니다. 우리의 방법은 실제 교정률 (Genuine Rectification Rate)을 크게 향상시키며, 객관적인 증거에 엄격하게 근거한 진정한 자기 수정 (Self-correction)을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Reflect-R1: 긴 영상 이해를 위한 증거 기반 성찰 및 자기 수정 (Self-Correction)

요약

핵심 포인트

댓글