MedCTA: 임상 도구 에이전트를 위한 벤치마크
요약
의료 AI 에이전트의 도구 사용 및 실행 능력을 평가하기 위한 새로운 벤치마크인 MedCTA를 소개합니다. 멀티모달 임상 데이터를 기반으로 도구 선택부터 실행 안정성까지 프로세스 전반을 엄격하게 평가합니다.
핵심 포인트
- 의료 AI의 도구 검색, 증거 획득, 통합 능력을 평가하는 MedCTA 벤치마크 제안
- 방사선 이미지, 병리 슬라이드 등 멀티모달 데이터를 활용한 실제 임상 작업 포함
- 최첨단 모델들도 다단계 임상 도구 사용 시 프로토콜 실패 등 취약점 발견
- 단순 인지 능력이 신뢰할 수 있는 에이전트 행동으로 직결되지 않음을 입증
임상적으로 근거 있는 결정을 내리기 위해, 의료 AI 에이전트는 단순한 인식을 넘어 도구 검색 (tool retrieval), 증거 획득 (evidence acquisition), 그리고 통합 (integration) 능력을 갖출 것으로 기대됩니다. 기존의 벤치마크들은 주로 고립된 인지 (perception) 또는 단일 턴 질의응답 (single-turn question answering)을 평가하며, 따라서 계획 (planning), 도구 모집 (tool recruitment), 그리고 실행 신뢰성 (rollout reliability)의 실패에 대한 가시성을 제한적으로 제공합니다. 우리는 방사선 이미지 (radiology images), 병리 슬라이드 (pathology slides), 그리고 보고서 (reports)를 포함한 현실적인 멀티모달 (multimodal) 임상 입력값에 기반하여, 임상의가 검증하고 단계가 암시된 (step-implicit) 작업들을 통해 의료 도구 에이전트를 평가하기 위한 벤치마크인 MedCTA를 소개합니다. MedCTA는 5개의 배포된 도구에 대해 임상의가 검증한 실행 가능한 궤적 (executable trajectories)을 포함하는 107개의 실제 임상 작업으로 구성되며, 도구 선택 (tool selection), 인자 유효성 (argument validity), 실행 안정성 (execution stability), 궤적 충실도 (trajectory fidelity), 그리고 결과 품질 (outcome quality)에 대한 프로세스 인지 평가 (process-aware evaluation)를 지원합니다. 우리는 18개의 오픈 소스 및 폐쇄형 멀티모달 모델을 벤치마킹하였으며, 최첨단 (frontier) 시스템들조차 다단계 임상 도구 사용에 있어서는 여전히 취약하다는 것을 발견했습니다. 자율적 실행 (autonomous rollouts)은 프로토콜 실패 (protocol failures), 조기 중단 (premature stopping), 그리고 잘못된 도구 모집 (incorrect tool recruitment)이 지배적이었던 반면, 골드 표준 도구 라우팅 (gold-standard tool routing)은 큰 개선을 보였으나 여전히 불완전했습니다. 이러한 결과는 강력한 백본 인지 (backbone perception) 능력이 임상 환경에서의 신뢰할 수 있는 에이전트 행동 (agentic behavior)으로 직결되지 않음을 보여줍니다. MedCTA는 신뢰할 수 있는 의료 AI 에이전트를 감사 (auditing), 진단 (diagnosing), 그리고 발전시키기 위한 엄격한 테스트베드를 제공합니다. 데이터셋과 평가 스위트는 https://ivul-kaust.github.io/MedCTA/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기