본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 12:52

DualFact+: 절차적 비디오 이해를 위한 다중모달 사실 검증 프레임워크

요약

DualFact+는 절차적 비디오 캡셔닝의 사실성(factuality)을 평가하기 위해 설계된 이중 레이어 다중모달 프레임워크입니다. 이 프레임워크는 사실을 추상적인 개념적 사실과 비디오에 기반한 문맥적 사실로 분리하여 분석합니다. DualFact+는 텍스트 증거와 시각적 증거를 모두 활용하는 두 가지 모드(DualFact-T, DualFact-V)를 제공하며, 기존 모델들이 흔히 범하는 사실적 오류나 환각을 체계적으로 검증하고 인간의 판단과 높은 상관관계를 보여줍니다.

핵심 포인트

  • 사실성 평가를 개념적 사실(추상적 의미론)과 문맥적 사실(비디오 기반 주어-목적어 실현)로 분리하여 분석합니다.
  • DualFact는 텍스트 증거 검증(DualFact-T)과 비디오 시각적 증거 검증(DualFact-V)의 두 가지 모드를 제공합니다.
  • 기존 최첨단 모델들은 유창하지만 사실적으로 불완전하거나 역할 일관성이 부족한 캡셔션을 생성하는 경향이 있습니다.
  • DualFact는 표준 지표보다 인간의 사실성 판단과 더 강하게 상관관계가 있으며, 환각(hallucinations)을 효과적으로 드러냅니다.

우리는 절차적 비디오 캡셔닝을 위한 이중 레이어 다중모달 사실성 평가 프레임워크인 DualFact 를 소개합니다. DualFact 는 사실의 정확성을 개념적 사실(conceptual facts)과 문맥적 사실(contextual facts)로 분리합니다. 개념적 사실은 추상적인 의미론적 역할 (예: 행동, 재료, 도구, 위치) 을 포착하고, 문맥적 사실은 비디오에서 그라운드된 주어-목적어 실현을 포착합니다. 완전하고 역할 일관성 있는 평가를 지원하기 위해 DualFact 는 암묵적 인자 증강 (VIA) 과 대조적 사실 집합을 포함합니다. 우리는 DualFact 를 두 가지 모드로 구현합니다: 텍스트 증거에 대한 사실 검증인 DualFact-T 와 비디오 그라운드된 시각적 증거에 대한 사실 검증인 DualFact-V 입니다. YouCook3-Fact 와 CraftBench-Fact 에서 수행한 실험 결과, 최첨단 다중모달 언어 모델은 유창하지만 종종 사실적으로 불완전한 캡셔션을 생성하며, 체계적인 누락과 역할 수준의 일관성 부재가 확인되었습니다. DualFact 는 표준 지표보다 인간의 사실성 판단과 더 강하게 상관관계가 있으며, 특히 문맥적 사실에 있어서 이를 잘 반영합니다. 또한 캡셔션만으로는 과대평가되는 환각 (hallucinations) 을 비디오 그라운드된 검증과 비교하여 드러냅니다. 전반적으로 DualFact 는 다중모달 사실 그라운딩의 지속적인 과제를 부각시키는 해석 가능하고 인간 정렬된 평가 프로토콜을 제공하며, 표면적인 유창성을 넘어선 확장 가능성을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0