PathNavigate: 전체 슬라이드 이미지(WSI) VQA를 위한 놀라움 기반 스캔 및 공유 슬라이드 메모리를 갖춘 학습
요약
PathNavigate는 기가픽셀 규모의 전체 슬라이드 이미지(WSI)에서 효율적인 시각적 질의응답을 수행하는 학습 불필요(Training-free) 병리 에이전트입니다. 놀라움 기반 스캔과 공유 슬라이드 메모리를 활용하여 질문에 명시되지 않은 형태학적 특징까지 효과적으로 탐색합니다.
핵심 포인트
- 스캔-검색-판독(scan-search-readout) 루틴을 통한 효율적 탐색
- 공유 온라인 메모리를 활용한 슬라이드 특화 놀라움 필드 생성
- 학습 없이도 고해상도 증거를 찾는 높은 정확도와 효율성
- 해석 가능한 증거 선택 궤적 제공
전체 슬라이드 이미지 시각적 질의응답 (Whole-slide image visual question answering, WSI-VQA)은 병리학을 극단적인 컨텍스트 검색 문제로 정의합니다. 즉, 자유 형식의 임상 질의에 답하기 위해 시스템은 엄격한 검사 예산(inspection budget) 하에서 기가픽셀(gigapixel) 규모의 슬라이드를 탐색하여 희소하고 고해상도인 증거를 찾아내야 합니다. 기존의 접근 방식은 크게 두 가지 패러다임으로 나뉩니다. i) 지도 학습 기반의 병리 멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs) 및 에이전트는 학습된 모듈에 위치 파악(localization) 및 추론 능력을 흡수할 수 있지만, 탐색 과정이 특정 작업에 특화된 지도 학습 및 재학습과 결합되는 경우가 많아 실용성이 제한됩니다. ii) 학습 불필요 (Training-free) 병리 에이전트는 핵심 모델을 동결(frozen) 상태로 유지하여 이러한 비용을 피하지만, 주로 질문을 먼저 고려하는 (question-first) 설계를 따르며 초기 후보군을 주로 질의 조건부 관련성 (query-conditioned relevance)을 통해 구축합니다. 이는 질문에 명시되지 않은 결정적인 형태학적 특징 (morphology)을 놓칠 수 있으며, 추론 시 더 무거운 스캐폴딩 (scaffolding)을 강제할 수 있습니다. 이러한 과제를 해결하기 위해, 우리는 스캔-검색-판독 (scan-search-readout) 루틴을 중심으로 구축된 학습 불필요 병리 에이전트인 PathNavigate를 소개합니다. 질문 매칭 전, PathNavigate는 동결된 병리 특징 (pathology features) 위에서 공유된 온라인 메모리 모듈을 사용하여 저배율로 현재 슬라이드를 스캔하며, 비정상 영역 풀 (abnormal-region pool)을 표시하는 슬라이드 특화 놀라움 필드 (surprise field)를 생성합니다. 그 다음, 이 풀 내에서만 질문 조건부 PLIP 관련성을 적용하여 고배율 검색 대상을 선택합니다. 마지막으로, 국소적인 고배율 증거를 추출하고 슬라이드 수준의 컨텍스트로서 동일한 온라인 메모리를 사용하여 동결된 인지-판정 (perceptor-adjudicator) 스택으로 답변을 도출합니다. WSI-VQA 및 SlideBench-BCNB에 대한 실험 결과, 제안된 스캔-검색-판독 설계는 답변 정확도를 향상시키고 더 높은 효율성과 함께 더 해석 가능한 증거 선택 궤적을 생성함을 보여줍니다. 코드는 온라인에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기