본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 12:02

Attention에 필요한 것은 정규 가이드 (Normal Guidance)

요약

3D 의료 영상 분류 시 어텐션 기반 MIL 모델이 이미지 콘텐츠 대신 중심부에만 집중하는 문제를 해결하기 위한 Normal Guidance 기술을 제안합니다. 어텐션 분포가 종 모양 곡선을 따르도록 정규화하여 슬라이스 수준의 국소화 성능을 크게 향상시켰습니다.

핵심 포인트

  • 기존 MIL 모델이 이미지 내용 대신 중심부에만 집중하는 현상 발견
  • 어텐션 분포를 종 모양 곡선으로 유도하는 Normal Guidance 제안
  • 전체 스캔 분류 성능을 유지하며 슬라이스 국소화 성능 극대화
  • 흉부, 복부 CT 등 다양한 의료 영상 데이터셋에서 성능 입증

우리는 각 2D 슬라이스 (slice)에 대한 레이블 대신 전체 볼륨 (volume)에 대해 단 하나의 이진 레이블 (binary label)만을 사용하는 3D 의료 영상용 분류기 (classifier) 학습을 고려합니다. 이러한 약지도 학습 (weakly supervised settings) 환경에서, 슬라이스 수준 (slice-level)의 예측을 위한 정확한 분류기를 학습할 수 있을까요? 어텐션 기반 다중 인스턴스 학습 (Attention-based multiple instance learning, MIL)은 모든 슬라이스에 대해 어텐션 점수 (attention score)를 생성할 수 있습니다. 그러나 최근 연구에 따르면, 이미지 콘텐츠를 무시하고 단순히 중심에 집중하는 베이스라인 (baseline)이 3D 뇌 스캔의 슬라이스 수준 분류에서 어텐션 기반 및 트랜스포머 기반 (transformer-based) MIL보다 더 나은 성능을 보일 수 있음을 보여줍니다. 우리는 이 베이스라인이 흉부 및 복부 CT 스캔의 슬라이스 수준 분류에서도 기존 MIL보다 우수함을 보여줍니다. 이 베이스라인에서 영감을 받아, 우리는 학습된 어텐션 분포 (attention distribution)가 종 모양 곡선 (bell-shaped curve)을 따르도록 권장하는 정규화 기술 (regularization technique)인 Normal Guidance를 제안합니다. 총 400만 개 이상의 2D 슬라이스로 구성된 세 가지 의료 영상 데이터셋을 통해, 우리는 Normal Guidance가 어텐션 기반 및 트랜스포머 기반 MIL 방법론이 전체 스캔 분류 (whole-scan classification)에서는 경쟁력을 유지하면서도, 최신 기술 (state-of-the-art)보다 현저히 더 나은 슬라이스 수준 국소화 (slice-level localization) 성능을 제공할 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0