arXiv논문2026. 06. 17. 11:20

시각적 단서를 넘어: 반지도 학습 기반 의료 영상 분할을 위한 CoT 강화 추론

요약

반지도 학습 기반 의료 영상 분할의 한계를 극복하기 위해 사고의 사슬(CoT) 추론을 통합한 CERS 프레임워크를 제안합니다. LLM의 언어적 추론을 활용하여 시각적 유사성만으로는 구분하기 어려운 병리학적 차이를 식별하고 정확도를 높였습니다.

핵심 포인트

시각적 패턴 매칭의 한계인 시각적-의미적 불일치 해결
LLM 기반 지식 풀과 CoT 추론을 통한 의미 인식 참조 선택 전략 도입
다중 스케일 좌표 주의 집중 모듈(MCAM)을 통한 추론 문맥 융합
경계 모호성 및 의미적 불일치 해결에서 SOTA 성능 입증

반지도 학습 기반 의료 영상 분할 (Semi-supervised medical image segmentation)은 레이블이 없는 데이터에 대한 일관성 정규화 (consistency regularization)를 활용하여 주석 부족 문제를 완화함으로써 의료 영상 분석 분야의 주요 연구 과제로 부상했습니다. 그러나 기존 방식들은 주로 시각적 패턴 매칭을 통해 작동하며, 픽셀 수준의 유사성에 크게 의존합니다. 이러한 시각 중심적 의존성은 시각적-의미적 불일치 (visual-semantic mismatch)가 특징인 임상 시나리오에서 종종 실패합니다. 즉, 시각적으로는 유사한 병변이라도 서로 다른 진단 결론을 내려야 하는 경우, 전문가들이 사용하는 근본적인 진단 논리를 포착하지 못합니다. 이를 해결하기 위해, 우리는 시각적 단서를 넘어 병리학적으로 구별되는 사례를 식별하기 위해 사고의 사슬 (Chain-of-Thought, CoT) 추론을 통합하는 프레임워크인 CERS (CoT-Enhanced Reasoning Segmentation)를 제안합니다. 구체적으로, 우리는 대규모 언어 모델 (LLMs)에 의해 생성된 언어적 추론 설명으로 풍부해진 지식 풀 (knowledge pool)을 구축합니다. 또한, 형태학 (morphology)을 통해 후보를 먼저 필터링한 다음, CoT 일관성을 통해 하드 네거티브 (hard negatives)를 제거함으로써 과거의 증거를 식별하는 의미 인식 참조 선택 (semantic-aware reference selection) 전략을 도입합니다. 나아가, 이러한 추론 유도 문맥 (reasoning-derived context)을 디코딩 과정에 효과적으로 융합하기 위해 다중 스케일 좌표 주의 집중 모듈 (multi-scale coordinate attention module, MCAM)을 설계했습니다. 광범위한 실험을 통해 CERS가 최신 기술 (state-of-the-art) 방식들에 비해 우수함을 입증하였으며, 특히 경계 모호성 (boundary ambiguities)과 의미적 불일치 (semantic inconsistencies)를 해결하는 데 탁월함을 보여주었습니다. 코드는 https://github.com/cymasuna/CERS 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

시각적 단서를 넘어: 반지도 학습 기반 의료 영상 분할을 위한 CoT 강화 추론

요약

핵심 포인트

댓글