본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 17. 11:40

SegDINO: 효율적인 의료 영상 분할을 위해 DINO에 다중 스케일 구조를 도입함

요약

SegDINO는 DINO 모델의 시각적 표현을 활용하여 효율적인 의료 영상 분할을 수행하는 프레임워크입니다. 무거운 디코더 대신 토큰 피라미드 적응(TPA)과 스케일 인지 디코딩(SAD)을 통해 연산 오버헤드를 줄이면서도 높은 성능을 구현했습니다.

핵심 포인트

  • DINO 특징에 다중 스케일 구조를 도입하여 효율성 극대화
  • TPA를 통한 의사 다중 스케일 계층 재구성
  • SAD를 활용한 정교한 스케일 내 정교화 및 전파
  • 췌장 종양 데이터셋 PanCT 구축 및 성능 검증
  • 기존 방식 대비 낮은 연산 비용으로 SOTA 성능 달성

자기지도 학습(Self-supervised) DINO 모델은 강력하고 전이 가능한 시각적 표현(visual representations)을 제공하지만, 이를 영상 분할(image segmentation)에 직접 적용하는 것은 여전히 어려운 과제로 남아 있습니다. 기존의 방식들은 일반적으로 복잡한 업샘플링(upsampling)을 포함하는 무거운 디코더(decoder)에 의존하며, 이는 상당한 파라미터 및 연산 오버헤드(computational overhead)를 초래합니다. 우리는 DINO 특징(features)에 스케일(scale)을 도입하는 것이 디코더 용량을 늘리는 것보다 훨씬 더 중요하다는 점을 관찰했습니다. 본 연구에서는 DINOv3 백본(backbone)과 경량화된 스케일 모델링(scale modeling)을 통합한 효율적인 분할 프레임워크인 SegDINO를 제안합니다. SegDINO는 중간 단계의 DINO 특징들을 의사 다중 스케일 계층(pseudo multi-scale hierarchy)으로 재구성하는 토큰 피라미드 적응(Token Pyramid Adaptation, TPA)과, 효율적인 스케일 내 정교화(intra-scale refinement) 및 하향식 다중 스케일 전파(top-down multi-scale propagation)를 위한 스케일 인지 디코딩(Scale-Aware Decoding, SAD)을 도입합니다. 나아가 우리는 SegDINO가 까다로운 미세 병변(small-lesion) 사례를 처리하는 능력을 평가하기 위해, 전문가가 주석을 달은 췌장 종양을 포함한 284명의 환자 데이터가 담긴 새로운 CT 데이터셋인 PanCT를 구축했습니다. PanCT 및 3개의 공개 벤치마크에 대한 광범위한 실험을 통해 SegDINO가 높은 효율성과 함께 최첨단(state-of-the-art) 성능을 달성함을 입증했습니다. 코드는 https://github.com/script-Yang/segdino_v2 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0