arXiv논문2026. 06. 29. 22:42

EchoSonar-R: 심초음파 질환 분류 및 보고서 생성을 위한 다중 뷰 추론 가능 모델

요약

EchoSonar-R은 심초음파 영상을 통해 질환을 분류하고 임상 보고서를 생성하는 다중 뷰 시각-언어 모델입니다. 시공간 비디오 인코더와 구조 인식 탐지기를 결합하여 해부학적 근거를 바탕으로 한 해석 가능한 추론을 제공합니다.

핵심 포인트

다중 뷰 추론을 통한 질환 분류 및 보고서 생성 공동 수행
해부학적 단서를 제공하여 임상의의 신뢰도와 해석 가능성 향상
GRPO 강화학습 프레임워크를 활용한 분류 및 생성 작업 정렬
기존 베이스라인 대비 높은 정확도와 임상 충실도(GREEN) 달성

심초음파 (Echocardiography)는 가장 널리 사용되는 비침습적 심장 영상 양식으로, 심혈관 진단을 위한 필수적인 정보를 제공합니다. 심초음파를 해석하려면 이상 징후를 식별하고 구조화된 임상 보고서를 생성하기 위해 여러 심장 뷰 (heart views)에 걸친 상호 보완적인 증거를 합성해야 합니다. 최근의 노력들이 분류 성능을 향상시키는 데 집중하고 있지만, 대부분의 모델은 명시적인 진단적 추론과 공간적으로 근거가 있는 해부학적 증거가 부족하여 임상의의 신뢰를 제한합니다. 우리는 심초음파 검사로부터 다중 레이블 질환 분류 (multi-label disease classification)와 보고서 생성을 공동으로 수행하는 다중 뷰 추론 가능 시각-언어 모델 (vision-language model)인 EchoSonar-R을 제시합니다. EchoSonar-R은 시공간 비디오 인코더 (spatiotemporal video encoder)와 구조 인식 심장 탐지기 (structure-aware cardiac detector)를 결합하여, 교차 뷰 추론 (cross-view reasoning) 과정에서 해석 가능성과 임상의의 신뢰를 높이기 위한 공간적으로 근거가 있는 해부학적 단서를 제공합니다. EchoSonar-R은 두 단계로 학습됩니다: 추론 주석이 달린 타겟에 대한 지도 미세 조정 (Supervised Fine-Tuning, SFT)이 수행된 후, 통합된 강화학습 (Reinforcement-Learning, RL) 프레임워크 내에서 분류와 보고서 생성을 공동으로 정렬하는 작업별 보상을 사용하는 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO)가 이어집니다. 비공개 다중 뷰 데이터셋과 두 개의 공개 벤치마크 전반에 걸쳐, EchoSonar-R은 가장 강력한 베이스라인 대비 비공개 데이터셋에서 매크로 균형 정확도 (macro balanced accuracy)를 17.1%, MIMICEchoQA에서 6.1% 향상시켰으며, 0.800의 GREEN 임상 충실도 (clinical faithfulness) 점수를 달성하고 다중 뷰 시각적 증거에 기반한 해석 가능한 추론 흔적을 생성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

EchoSonar-R: 심초음파 질환 분류 및 보고서 생성을 위한 다중 뷰 추론 가능 모델

요약

핵심 포인트

댓글