본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 21:54

캡슐 내시경 영상 분석의 새로운 패러다임: DiCE 프레임워크

요약

기존 캡슐 내시경(CE) 연구는 주로 단일 프레임 분류에 머물러 있어, 장시간 비디오 기반 진단이 어려웠습니다. 본 논문은 '진단 주도형 CE 영상 요약'이라는 새로운 과제를 정의하고, 이를 해결하기 위해 DiCE라는 임상 의사 흐름을 모방한 프레임워크를 제안합니다. 240개의 실제 임상 보고서 기반 데이터셋 VideoCAP을 활용하여 개발된 DiCE는 방대한 정상 프레임 속에서 핵심 병변 증거를 추출하고, 이를 진단적 맥락으로 묶어 신뢰도 높은 요약본을 생성하며 기존 SOTA 대비 우수한 성능을 입증했습니다.

핵심 포인트

  • 캡슐 내시경(CE) 분석은 단일 프레임 수준을 넘어 비디오 전체의 '진단 주도형' 맥락 이해가 필요합니다.
  • VideoCAP 데이터셋은 240개의 실제 임상 보고서를 기반으로 구축되어, 핵심 증거 추출 및 진단에 대한 현실적인 지도 학습 환경을 제공합니다.
  • DiCE 프레임워크는 원본 비디오를 효율적으로 스크리닝하고, 'Context Weaver'와 'Evidence Converger'를 통해 병변 이벤트를 보존하는 진단적 맥락 요약을 수행합니다.
  • 실험 결과, DiCE는 기존 최신 기법(SOTA)을 능가하며 임상적으로 신뢰할 수 있는 간결한 진단 요약본을 생성함을 보여주었습니다.

Capsule endoscopy (CE) enables non-invasive gastrointestinal screening, but current CE research remains largely limited to frame-level classification and detection, leaving video-level analysis underexplored. To bridge this gap, we introduce and formally define a new task, diagnosis-driven CE video summarization, which requires extracting key evidence frames that covers clinically meaningful findings and making accurate diagnoses from those evidence frames. This setting is challenging because diagnostically relevant events are extremely sparse and can be overwhelmed by tens of thousands of redundant normal frames, while individual observations are often ambiguous due to motion blur, debris, specular highlights, and rapid viewpoint changes.

To facilitate research in this direction, we introduce VideoCAP, the first CE dataset with diagnosis-driven annotations derived from real clinical reports. VideoCAP comprises 240 full-length videos and provides realistic supervision for both key evidence frame extraction and diagnosis. To address this task, we further propose DiCE, a clinician-inspired framework that mirrors the standard CE reading workflow. DiCE first performs efficient candidate screening over the raw video, then uses a Context Weaver to organize candidates into coherent diagnostic contexts that preserve distinct lesion events, and an Evidence Converger to aggregate multi-frame evidence within each context into robust clip-level judgments.

Experiments show that DiCE consistently outperforms state-of-the-art methods, producing concise and clinically reliable diagnostic summaries. These results highlight diagnosis-driven contextual reasoning as a promising paradigm for ultra-long CE video summarization.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0