OphMAE: 적응적 안과 진단을 위한 체적 및 평면 영상 융합을 지원하는 기반 모델
요약
본 논문은 체적 깊이의 3D OCT와 평면 컨텍스트의 2D en face OCT를 효과적으로 결합하도록 설계된 안과 다중 모달리티 기반 모델인 OphMAE를 제안합니다. OphMAE는 새로운 교차 모달리티 융합 구조와 적응적 추론 메커니즘을 통해 대규모 데이터셋에서 사전 학습되었으며, 다양한 진단 과제에서 기존 모델들을 능가하는 최상의 성능을 입증했습니다. 특히 단일 모달리티 입력에서도 높은 정확도를 유지하며 뛰어난 데이터 효율성을 보여주어 임상 환경에서의 실용적 적용 가능성을 높였습니다.
핵심 포인트
- OphMAE는 3D OCT와 2D en face OCT라는 이질적인 안과 영상 모달리티를 결합하는 다중 모달리티 기반 모델입니다.
- 새로운 교차 모달리티 융합 구조와 적응적 추론 메커니즘을 통해 진단 성능을 극대화했습니다.
- AMD 및 DME 등 주요 질환에 대해 기존 단일/다중 모달리티 모델 대비 높은 AUC(96.9%, 97.2%)를 달성하며 우수한 성능을 입증했습니다.
- 강력한 엔지니어링 적응성을 보여, 데이터가 제한적인 환경에서도 높은 진단 정확도를 유지하는 뛰어난 데이터 효율성을 갖추었습니다.
기반 모델 (foundation model) 의 등장으로 의료 인공지능 (AI) 에 새로운 시대가 열렸으며, 대규모 라벨링되지 않은 데이터셋에서 일반화 가능한 표현을 추출할 수 있게 되었습니다. 그러나 현재 안과 AI 패러다임은 단일 모달리티 추론에 주로 제한되어 있어, 진단이 보완적인 영상 모달리티의 종합에 의존하는 임상 실습과 불일치를 초래하고 있습니다. 또한, 고성능 AI 의 배포는 고급 3 차원 영상 하드웨어의 부재로 인해 자원 부족 환경에서 자주 저해됩니다. 여기서는 체적 깊이인 3 차원 광간섭 단층촬영 (OCT) 과 평면 컨텍스트인 2 차원 en face OCT 를 시너지화하도록 설계된 안과 다중 모달리티masked Autoencoder(OphMAE) 을 제시합니다. OphMAE 는 새로운 교차 모달리티 융합 구조와 고유한 적응적 추론 메커니즘을 구현하여, 32,765 명의 환자에서 유래한 183,875 쌍의 OCT 이미지로 구성된 대규모 데이터셋에서 사전 학습 (pre-trained) 되었습니다. 엄격한 벤치마크인 17 가지 다양한 진단 과제와 8,191 명의 환자에서 유래한 48,340 쌍의 OCT 이미지를 포함하여, OphMAE 는 시점 최상의 성능을 보였으며, 연령 관련 황반 변성 (AMD) 에 대해 면적 아래 곡선 (AUC) 을 96.9% 로 달성하고 당뇨병성 황반 부종 (DME) 에 대해 97.2% 를 달성하여 기존 단일 모달리티 및 다중 모달리티 기반 모델을 일관되게 상회했습니다.至关重要的是, OphMAE 는 강력한 엔지니어링 적응성을 보이며, 단일 모달리티 2 차원 입력에 제한되어 있더라도 AMD 에 대한 진단 정확도 (AUC) 를 93.7% 로 유지하고, 라벨링된 샘플이 최소 500 개일 때만 95.7% AUC 를 유지하여 탁월한 데이터 효율성을 보여줍니다. 이 작업은 다양한 과제에서 강력한 성능을 보장하는 확장 가능하고 적응적인 안과 AI 프레임워크를 확립했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기