HealthAgentBench: 도전적인 프런티어 AI 에이전트를 위한 현실적인 에이전트 기반 의료 환경의 통합 벤치마크 스위트
요약
의료 분야의 복잡한 워크플로우를 평가하기 위한 새로운 벤치마크 스위트인 HealthAgentBench를 소개합니다. 7개 카테고리, 54개의 작업을 통해 AI 에이전트의 장기 추론 및 다단계 솔루션 실행 능력을 엄격하게 측정합니다.
핵심 포인트
- 7개 카테고리, 54개의 에이전트 기반 의료 작업 포함
- 실제 임상 워크플로우를 복제한 엔드 투 엔드 평가 설계
- 프런티어 에이전트들의 낮은 성공률을 통해 벤치마크의 난이도 입증
- 의료 영상 처리 및 복잡한 구성적 추론 분야의 한계 확인
AI 에이전트가 복잡하고 긴 호흡의 추론 (long-horizon reasoning) 능력을 점점 더 갖추게 됨에 따라, 실제 의료 애플리케이션으로의 발전을 측정하기 위해서는 엄격하고 총체적인 평가가 필수적입니다. 우리는 7개의 카테고리에 걸쳐 각각 고유한 환경을 가진 54개의 에이전트 기반 의료 작업(agentic healthcare tasks) 스위트인 HealthAgentBench를 소개합니다. 이 벤치마크 스위트는 환자의 여정 전반에 걸친 다양한 워크플로우(workflows)와 광범위한 모달리티 (modalities)를 아우릅니다. 각 작업은 엔드 투 엔드 (end-to-end) 임상 워크플로우를 복제하도록 설계되었습니다. 즉, 최소한의 지침이 주어졌을 때, 에이전트는 가공되지 않은 의료 데이터를 탐색하고, 복잡한 환경 내에서 작동하며, 단순한 프롬프팅 (prompting)을 넘어서는 다단계 솔루션을 실행해야 합니다. 각 에이전트의 HealthAgentBench 전체 성능에 대해 단일하고 해석 가능한 지표를 제공하기 위해 최종 작업 성공률이 보고됩니다. HealthAgentBench에서 프런티어 에이전트들을 평가한 결과, 전체 작업 성공률이 여전히 낮게 나타났으며, 이는 이 스위트의 난이도를 강조합니다. 가장 강력하고 비용 효율적인 에이전트인 Codex GPT-5.5는 약 42%의 성공률만을 달성했습니다. 종합적인 성능을 넘어, HealthAgentBench는 작업 카테고리 전반에 걸친 미묘한 강점과 약점을 드러냅니다. 프런티어 에이전트들은 EHR 데이터에 대한 연구 모델링 파이프라인을 자동으로 개발하는 데 유망한 모습을 보였으나, 의료 영상 (medical imaging)은 특히 어려운 과제로 남아 있으며, 특히 Claude Code 모델들에게 그러했습니다. 반면 Codex GPT-5.5는 나타나기 시작하는 능력을 보여주었습니다. 넓은 탐색 공간 (search spaces)과 구성적 추론 (compositional reasoning) 요구 사항이 결합된 작업은 현재의 모든 에이전트에게 여전히 어렵습니다. 종합적으로, 이러한 결과는 HealthAgentBench가 향후 발전할 여지가 상당한, 도전적이고 현실적인 벤치마크를 제공함을 시사합니다. 우리는 https://github.com/microsoft/HealthAgentBench 에서 벤치마크를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기