arXiv논문2026. 06. 10. 11:37

FADA: 선택적 증류를 통한 통합 시각-언어 모델 기반의 접근 가능한 태아 초음파 해석 및 주석 달기

요약

FADA는 Qwen3.5-VL 기반의 통합 시각-언어 모델로, 선택적 증류(Selective Distillation)를 통해 태아 초음파의 해석, 분류, 탐지, 분할을 단일 파이프라인으로 수행합니다. 외부 라벨 없이도 높은 정확도를 보이며, 저사양 에지 기기에서도 구동 가능한 효율적인 구조를 갖추고 있습니다.

핵심 포인트

선택적 증류 방식을 통해 전체 증류보다 우수한 성능 달성
해석, 분류, 탐지, 분할을 하나의 통합 모델로 처리
스마트폰 등 에지 기기에서 오프라인 실행 가능한 경량화 검증
자원이 제한된 환경의 초음파 진단 접근성 격차 해소

훈련된 초음파 검사사(sonographers)의 전 세계적인 부족 현상은 저소득 및 중소득 국가의 산전 초음파 검사를 제한하고 있으며, 이들 국가에서는 임신부의 절반 이상이 숙련된 초음파 검사를 받지 못하고 있습니다. 현재의 딥러닝 (Deep Learning) 접근 방식은 탐지 (Detection), 분할 (Segmentation), 또는 분류 (Classification)를 개별적으로 다루며, 각각 추론 시 별도의 모델과 전문가가 지정한 라벨 (Labels)을 요구합니다. 본 논문에서는 외부 라벨 없이 단일 해석 우선 파이프라인 (Interpretation-first pipeline)을 통해 임상적 해석, 분류, 탐지 및 분할을 수행하는 Qwen3.5-VL 기반의 통합 시각-언어 모델 (Vision-Language Model)인 FADA를 제시합니다. FADA는 오프라인으로 사전 계산된 특징 캐싱 (Feature caching)을 통해 네 가지 도메인 특화 파운데이션 모델 (Foundation models: FetalCLIP, UltraSAM, USF-MAE, UltraFedFM)로부터 지식을 증류 (Distill)합니다. 해석은 표준 미세 조정 (Fine-tuning)에 의존하는 반면 주석 (Annotation) 작업에만 특징 정렬 (Feature alignment)을 적용하는 선택적 증류 (Selective distillation) 방식은 대부분의 평가 축에서 전체 증류 (Full distillation) 방식보다 일관되게 우수한 성능을 보입니다. 권장 변형 모델인 FADA-SKD는 분할에서 0.8820의 평균 Dice (mean Dice), 탐지에서 0.7671의 mAP@0.50을 달성하였으며, 100%의 구조화된 해석 준수율을 기록했습니다. 237개의 이미지에 대한 전문 초음파 검사사의 검증 결과, 자율 모드와 인간 참여형 (Human-in-the-loop) 모드 모두에서 임상적으로 수용 가능한 출력을 확인하였으며, 해석의 73.5%가 임상의의 지도하에 완벽한 점수를 받았습니다. 이 시스템은 단일 소비자용 GPU에서 학습이 가능하며 클라우드 연결 없이도 배포할 수 있습니다. 당사는 GGUF 양자화 (Quantization)를 사용하는 llama.cpp를 통해 일반 스마트폰 (Qualcomm Snapdragon 7 Gen 1, 12 GB RAM)에서 압축된 0.8B 모델을 실행함으로써 에지 배포 (Edge deployment)를 검증하였으며, 전체 5단계 파이프라인을 완전히 오프라인 상태에서 약 60초 만에 완료했습니다. 이는 AI 지원 태아 평가를 휴대용 초음파 장치와 통합하기 위한 실질적인 경로를 구축하며, 자원이 제한된 환경에서의 진단 접근성 격차를 직접적으로 해결합니다. 코드, 모델 및 데이터는 https://github.com/mahmoodphd/FADA 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

FADA: 선택적 증류를 통한 통합 시각-언어 모델 기반의 접근 가능한 태아 초음파 해석 및 주석 달기

요약

핵심 포인트

댓글