3D MRI Image Pretraining via Controllable 2D Slice Navigation Task
요약
본 논문은 3D MRI 볼륨을 연속적인 위치, 방향, 규모의 2D 슬라이스 렌더링 시퀀스로 변환하여 자기지도 사전 학습(self-supervised pretraining) 목표를 제안합니다. 이 접근 방식은 3D 데이터를 액션 궤적이 제어 인자가 되는 밀도 높은 비디오-액션 시퀀스로 취급하며, 이를 통해 잠재 역학 모델이 특징의 시간적 진화를 예측하도록 학습시킵니다. 실험 결과는 이러한 '제어 가능한 슬라이스 네비게이션' 방식이 대규모 라벨 없는 MRI 데이터셋에서 해부학적 및 공간적 표현을 효과적으로 학습하는 데 유용한 인터페이스임을 입증합니다.
핵심 포인트
- 기존의 정적인 3D 볼륨 기반 자기지도 학습 목표를 넘어, 동적인 '제어 가능한 2D 슬라이스 네비게이션' 시퀀스를 활용하여 MRI 표현을 학습한다.
- 3D 볼륨은 연속적인 위치, 방향, 규모 변화에 따른 2D 슬라이스 렌더링으로 변환되어 비디오-액션 시퀀스로 모델링된다.
- 제안된 액션 조건부 사전 학습 목표는 토큰화기를 이용해 관측을 인코딩하고, 잠재 역학 모델이 특징의 시간적 진화를 예측하도록 한다.
- 이 방법은 표준 정적 볼륨 기반 방식이나 단순한 액션 없는 변형보다 해부학적 및 공간적 다운스트림 작업에서 우수한 성능을 보인다.
자기지도 학습 (self-supervised pretraining) 은 라벨이 없는 스캔에서 MRI 표현을 학습하는 데 주류 접근법이 되었습니다. 그러나 대부분의 기존 목표는 각 스캔을 주로 슬라이스, 패치 또는 볼륨의 정적 집합으로 취급합니다. 우리는 재구성된 패치와 다른 형태의 자기지도 신호가 존재하는지 묻습니다. 3D 볼륨을 제어 가능한 2D 렌더링 시퀀스로 변환함으로써: 연속적인 위치, 방향 및 규모에서 슬라이스를 렌더링하면 3D 볼륨은 액션 궤적이 제어 인자가 되는 밀도 높은 비디오-액션 시퀀스로 변환됩니다. 우리는 액션 조건부 (action-conditioned) pretraining 목표를 통해 이 형식을 연구합니다. 여기서 토큰화기는 슬라이스 관측을 인코딩하고 잠재 역학 모델은 잠재 특징의 진화를 예측합니다. 대표적 해부학적 및 공간적 다운스트림 작업에 걸쳐, 제안된 pretraining 은 표준 정적 볼륨 베이스라인, 토큰자만 pretraining 과 정렬된 액션이 없는 역학 변형과 비교 평가됩니다. 이 결과는 제어 가능한 MRI 슬라이스 네비게이션이 대형 라벨 없는 MRI 컬렉션에서 해부학적 및 공간적 표현을 학습하는 데 유용한 보완적 pretraining 인터페이스를 제공함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기