arXiv논문2026. 05. 20. 11:00

EgoCoT-Bench: MLLM을 위한 근거 기반 및 검증 가능한 조작 중심 사고 사슬 (Chain of Thought) 추론 벤치마킹

요약

EgoCoT-Bench는 MLLM의 1인칭 시점 비디오 이해 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. 기존 벤치마크의 한계인 근거 기반 평가 부족을 해결하기 위해, 명시적인 단계별 근거(rationale)와 시공간적 증거를 포함한 검증 가능한 조작 중심 추론 데이터를 제공합니다. 실험 결과, 많은 모델이 정답은 맞히더라도 그 과정에 대한 근거 설명은 부정확하다는 점이 밝혀졌습니다.

핵심 포인트

1인칭 시점(egocentric) 비디오에서의 미세한 손-물체 상호작용 및 조작 과정 추론 능력 평가에 특화됨
351개의 비디오와 3,172개의 검증 가능한 QA 쌍을 포함하며, 12개의 하위 작업 그룹으로 구성됨
시공간 장면 그래프(STSG) 유도 생성 프레임워크와 인간 주석가의 정제를 통해 데이터 품질 확보
모델이 정답을 맞히더라도 논리적 근거(rationale)가 일치하지 않는 현상을 식별할 수 있는 테스트베드 제공

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)의 급격한 발전은 1인칭 시점(egocentric) 비디오 이해에 대한 관심 증가로 이어졌습니다. 특히 MLLM이 미세한 손-물체 상호작용 (hand-object interactions)을 인식하고, 시간에 따른 물체 상태 변화를 추적하며, 역동적인 환경에서 조작 과정 (manipulative processes)에 대해 1인칭 시점에서 추론하는 능력에 주목하고 있습니다. 그러나 기존의 1인칭 비디오 벤치마크는 extbf{근거 기반의 근거(rationale) 평가가 제한적}이라는 문제를 안고 있습니다. 즉, 미세한 조작 중심 추론 (operation-centric reasoning)에 대한 지원이 부족하며, 모델의 근거가 명시적인 시공간적 증거 (spatio-temporal evidence)에 기반하고 있는지 검토하는 경우가 드뭅니다.

이러한 격차를 해소하기 위해, 우리는 명시적인 단계별 근거 (rationale) 주석이 포함된, 근거 기반 및 검증 가능한 조작 중심 추론을 위한 미세한 1인칭 벤치마크인 extbf{EgoCoT-Bench}를 소개합니다. 전체적으로 EgoCoT-Bench는 351개의 1인칭 비디오에 걸쳐 3,172개의 검증 가능한 QA 쌍을 포함하며, 이는 인지 및 회상 (perception and retrospection), 예측 (anticipation), 그리고 고수준 추론 (high-level reasoning)을 아우르는 총 12개의 하위 작업 그룹으로 나뉜 4개의 작업 그룹으로 구분됩니다. 이 벤치마크는 시공간 장면 그래프 (spatio-temporal scene graphs, STSG) 유도 생성 프레임워크를 통해 구축되었으며, 정확성, 1인칭 관련성 및 미세한 품질을 보장하기 위해 인간 주석가(human annotators)에 의해 추가로 정제되었습니다.

실험 결과는 1인칭 미세 추론 (egocentric fine-grained reasoning)이 여전히 어렵다는 것을 보여주며, 많은 멀티모달 모델이 정답은 맞히지만 그 근거는 정답과 일치하지 않는 설명을 생성한다는 점을 추가로 밝혀냈습니다. 우리는 EgoCoT-Bench가 1인칭 비디오 이해에서 근거 기반 및 검증 가능한 추론을 위한 유용한 테스트베드 역할을 할 수 있기를 바랍니다. 프로젝트 페이지 및 보충 자료는 다음에서 확인할 수 있습니다: https://dstardust.github.io/EgoCoT/.

AI 자동 생성 콘텐츠

원문 바로가기

EgoCoT-Bench: MLLM을 위한 근거 기반 및 검증 가능한 조작 중심 사고 사슬 (Chain of Thought) 추론 벤치마킹

요약

핵심 포인트

댓글