CoralBay: 자기지도 학습 기반의 CT 파운데이션 모델 (Foundation Model)
요약
CoralBay는 3D CT 스캔의 특성을 반영하기 위해 자기 증류(Self-distillation) 프레임워크를 확장한 새로운 CT 파운데이션 모델입니다. 계층적 3D Swin 백본을 통해 전역적 의미론과 국소 구조를 동시에 학습하며, 다양한 방사선학 작업에서 뛰어난 성능을 입증했습니다.
핵심 포인트
- 3D CT 데이터의 공간적 연속성과 조직 특성 모델링
- DINO를 확장한 자기 증류 기반의 데이터 효율적 학습
- 계층적 3D Swin 백본을 통한 다중 스케일 특징 추출
- 표준화된 3D 방사선학 리더보드 및 벤치마크 구축
자기지도 학습 (Self-supervised learning)은 2D 자연 이미지에 대한 대규모 사전 학습 (Pre-training)을 가능하게 하여, 다양한 작업에 효과적으로 전이되는 범용 시각 표현 (Visual representations)을 생성해 왔습니다. 그러나 CT 스캔과 같은 많은 의료 영상 양상 (Modalities)은 본질적으로 3차원적이며, 구조와 의미론 (Semantics) 측면 모두에서 자연 이미지와 근본적으로 다릅니다. 볼륨 데이터 양상 (Volumetric modalities)은 공간적 연속성, 장기 해부학 (Organ anatomy), 그리고 강도 기반의 조직 특성 (예: Hounsfield Units)을 포착하는데, 이는 2D 사전 학습으로는 충분히 모델링되지 않습니다. 이러한 격차를 해소하기 위해, 우리는 CoralBay를 소개합니다. CoralBay는 계층적 3D Swin 백본 (Backbone)을 사용하고 연결된 다중 스케일 특징 (Multi-scale features)에 자기 증류 (Self-distillation)를 적용하여 DINO를 확장한 자기 증류 프레임워크로, 전역적 의미론 (Global semantics)과 미세한 국소 구조 (Fine-grained local structure)를 모두 인코딩하는 풍부한 공간 표현의 데이터 효율적인 자기지도 학습을 가능하게 합니다. 그 결과, CoralBay는 광범위한 다운스트림 방사선학 작업 (Downstream radiological tasks)에 효과적으로 전이되며, 다양한 해부학적 대상에 대해 강력하고 일관된 성능을 입증합니다. 또한, 우리는 여러 데이터셋을 통합하고 볼륨 표현 학습 (Volumetric representation learning) 방법을 평가하기 위한 표준화된 벤치마크를 구축하는 공개적이고 재현 가능한 3D 방사선학 리더보드를 도입함으로써 오픈 소스 exttt{eva} 프레임워크에 기여합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기