HealthAgentBench: 도전적인 프런티어 AI 에이전트를 위한 현실적인 에이전트 기반 의료 환경의 통합 벤치마크 스위트

AI 에이전트가 복잡하고 긴 호흡의 추론 (long-horizon reasoning) 능력을 점점 더 갖추게 됨에 따라, 실제 의료 애플리케이션으로의 발전을 측정하기 위해서는 엄격하고 총체적인 평가가 필수적입니다. 우리는 7개의 카테고리에 걸쳐 각각 고유한 환경을 가진 54개의 에이전트 기반 의료 작업(agentic healthcare tasks) 스위트인 HealthAgentBench를 소개합니다. 이 벤치마크 스위트는 환자의 여정 전반에 걸친 다양한 워크플로우(workflows)와 광범위한 모달리티 (modalities)를 아우릅니다. 각 작업은 엔드 투 엔드 (end-to-end) 임상 워크플로우를 복제하도록 설계되었습니다. 즉, 최소한의 지침이 주어졌을 때, 에이전트는 가공되지 않은 의료 데이터를 탐색하고, 복잡한 환경 내에서 작동하며, 단순한 프롬프팅 (prompting)을 넘어서는 다단계 솔루션을 실행해야 합니다. 각 에이전트의 HealthAgentBench 전체 성능에 대해 단일하고 해석 가능한 지표를 제공하기 위해 최종 작업 성공률이 보고됩니다. HealthAgentBench에서 프런티어 에이전트들을 평가한 결과, 전체 작업 성공률이 여전히 낮게 나타났으며, 이는 이 스위트의 난이도를 강조합니다. 가장 강력하고 비용 효율적인 에이전트인 Codex GPT-5.5는 약 42%의 성공률만을 달성했습니다. 종합적인 성능을 넘어, HealthAgentBench는 작업 카테고리 전반에 걸친 미묘한 강점과 약점을 드러냅니다. 프런티어 에이전트들은 EHR 데이터에 대한 연구 모델링 파이프라인을 자동으로 개발하는 데 유망한 모습을 보였으나, 의료 영상 (medical imaging)은 특히 어려운 과제로 남아 있으며, 특히 Claude Code 모델들에게 그러했습니다. 반면 Codex GPT-5.5는 나타나기 시작하는 능력을 보여주었습니다. 넓은 탐색 공간 (search spaces)과 구성적 추론 (compositional reasoning) 요구 사항이 결합된 작업은 현재의 모든 에이전트에게 여전히 어렵습니다. 종합적으로, 이러한 결과는 HealthAgentBench가 향후 발전할 여지가 상당한, 도전적이고 현실적인 벤치마크를 제공함을 시사합니다. 우리는 https://github.com/microsoft/HealthAgentBench 에서 벤치마크를 공개합니다.

Insights

HealthAgentBench: 도전적인 프런티어 AI 에이전트를 위한 현실적인 에이전트 기반 의료 환경의 통합 벤치마크 스위트

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들