강건한 비디오 이해를 위한 신뢰도 인지 도구 오케스트레이션 (Confidence-Aware Tool Orchestration for
요약
비디오 추론 모델이 시각적 노이즈에 취약한 '맹목적 신뢰 문제'를 해결하기 위해, 프레임별 신뢰도를 고려하는 Robust-TO 프레임워크를 제안합니다. 이 모델은 도구 오케스트레이션과 신뢰도 기반 가중치 합성을 통해 열악한 환경에서도 높은 정확도를 유지합니다.
핵심 포인트
- 비디오 추론 시 모션 블러, 눈부심 등 시각적 섭동에 대응하는 신뢰도 인지 기술 제안
- Robust-TO 프레임워크를 통해 이질적인 시각 도구들을 통일된 인터페이스로 조직
- 신뢰도-비용 GRPO 보상 체계를 통해 정확성, 신뢰도, 효율성을 공동 최적화
- Gemini-2.5-Pro 및 기존 오픈 소스 베이스라인 대비 우수한 성능 입증
비디오 추론 언어 모델 (Video reasoning language models)은 모든 입력 프레임이 동일하게 신뢰할 수 있다고 암묵적으로 가정합니다. 이는 우리가 '맹목적 신뢰 문제 (Blind Trust Problem)'라고 명명한 현상으로 이어집니다. 모션 블러 (motion blur), 눈부심 (glare), 또는 폐쇄 (occlusion)와 같은 현실적인 섭동 (perturbations) 상황에서, 최첨단 비디오 추론 모델들은 시각적 증거가 저하되었다는 사실을 인지하지 못한 채 실제 환경의 임바디드 벤치마크 (embodied benchmarks)에서 15-30%p의 정확도 하락을 겪을 수 있습니다. 이 과제를 해결하기 위해, 우리는 추론의 모든 단계에 프레임별 신뢰도 (per-frame trustworthiness)를 명시적으로 통합하는 에이전트 기반 비디오 이해 프레임워크인 Robust-TO를 제안합니다. Robust-TO는 이질적인 시각적 인지 도구들을 통일된 증거 인터페이스 (evidence interface) 하에 조직합니다. 각 도구는 원래 질문에서 파생된 하위 쿼리 (sub-query)와 신뢰도-관련성 점수 (reliability-relevance score)에 의해 선택된 신뢰할 수 있는 프레임 세트를 전달받습니다. 도구는 공유된 형식으로 증거를 반환합니다: 구체적인 예측 (예: 경계 상자 (bounding box), 운동 궤적 (motion trajectory), 인식된 텍스트, 또는 액션 레이블 (action label)), 시간적 접지 (temporal grounding), 그리고 보정된 신뢰도 점수 (calibrated reliability score)입니다. 추론 과정에서 이러한 보정된 점수들은 3단계 합성 프로세스 (고/중/저)에서 증거 가중치를 안내하며, 정확성, 증거 신뢰도, 그리고 효율성을 공동으로 최적화하는 신뢰도-비용 GRPO 보상 (confidence-cost GRPO reward)을 정의합니다. 8개의 태스크를 아우르는 두 개의 비디오 추론 벤치마크에서, Robust-TO는 깨끗한 입력(clean inputs)에 대해 평균 56.4%의 정확도를 달성하여, 가장 강력한 오픈 소스 베이스라인을 10.6%p 앞질렀으며 Gemini-2.5-Pro (46.2%)보다 우수한 성능을 보였습니다. 5가지의 현실적인 손상 유형 (corruption types) 하에서도 Robust-TO는 평균 54.3%의 정확도를 유지하여 가장 강력한 오픈 소스 베이스라인보다 5.8%p 높았으며, 비교된 모든 방법론 중 깨끗한 입력 대비 손상된 입력에서의 정확도 하락이 가장 적게 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기