arXiv논문2026. 06. 30. 11:13

MedEvoEval: 시뮬레이션된 임상 에피소드를 통한 의사 에이전트(Doctor Agents)의 지속적 진화 평가

요약

의사 에이전트의 지속적인 진화와 임상 의사 결정 능력을 평가하기 위한 새로운 프레임워크인 MedEvoEval을 소개합니다. 시뮬레이션된 외래 에피소드를 통해 에이전트가 경험을 통해 학습하고, 자원을 관리하며, 능력을 유지하는지 종단적으로 분석합니다.

핵심 포인트

단일 턴 QA를 넘어 에피소드 기반의 지속적 진화 평가 프레임워크 제안
행동 게이트 방식을 통해 환자, 검사, 관리자 뷰로 구성된 시뮬레이션 환경 구축
메모리 성숙도, 홀드아웃 전이, 역방향 유지 등 종단적 분석 지원
700개의 에피소드와 실행 가능한 E&D 아티팩트 공개

의사 에이전트(Doctor agents)는 단일 턴(single-turn) 답변 생성을 넘어 진화하는 임상 의사 결정 시스템으로 나아가고 있습니다. 외래 에피소드(outpatient episode) 내에서 이들은 증거를 습득하고, 검사 및 상담 자원을 사용하며, 진단과 관리 계획을 언제 확정할지 결정합니다. 여러 에피소드에 걸쳐 이들의 행동은 메모리(memory), 검색(retrieval), 성찰(reflection) 또는 기타 업데이트 메커니즘을 통해 변화할 수 있습니다. 현재의 평가 방식은 이러한 설정을 부분적으로만 다루고 있습니다. 고정된 입력 방식의 의료 질의응답(QA) 벤치마크는 완전한 입력으로부터 최종 답변을 채점하는 반면, 많은 대화형 벤치마크는 여전히 개별적인 만남이나 고정된 실행에 초점을 맞추고 있어, 에피소드 수준의 결정이 에피소드 간 경험과 어떻게 상호작용하는지를 평가하는 데 한계가 있습니다. 우리는 행동 게이트(action-gated) 방식의 시뮬레이션된 외래 에피소드를 기반으로 하는 실행 가능한 종단적 평가 프레임워크인 MedEvoEval을 소개합니다. 각 소스 케이스는 역할별 환자(patient), 검사(examination), 관리자(manager) 뷰로 변환되며, 증거는 유효한 행동을 통해서만 공개됩니다. 또한 각 에피소드는 관찰(observations), 행동(actions), 최종 출력(final outputs), 관리자 점수(manager scores), 그리고 선택적인 경험 쓰기(experience write-back)를 연결하는 구조화된 트레이스(trace)를 기록합니다. 우리는 700개의 처리된 에피소드, 출처 노트, 스키마(schemas), 에피소드 러너(episode runner), 채점 스크립트(scoring scripts), 설정(configurations), 예시 로그(example logs), 분석 코드(analysis code), 그리고 궤적(trajectory) 및 단계(step) 수준의 파생물(derivatives)을 포함하는 실행 가능한 E&D 아티팩트(artifact)를 공개합니다. 실험 결과, 에피소드 트레이스는 최종 답변 채점 방식에 의해 숨겨진 프로세스 비용을 드러내고, 다학제 팀(MDT) 스타일의 상담이 자원을 어떻게 재배분하는지 보여주며, 메모리 성숙(memory maturation), 홀드아웃 전이(held-out transfer), 업데이트 단계 응답(update-stage response), 그리고 역방향 유지(backward retention)에 대한 종단적 분석을 지원함을 보여줍니다. 종합적으로, 이러한 결과는 MedEvoEval이 의사 에이전트가 경험을 통해 개선되는지, 유용한 행동을 전이하는지, 그리고 시간이 지남에 따라 이전의 능력을 유지하는지를 평가하기 위한 구체적인 근거를 제공함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MedEvoEval: 시뮬레이션된 임상 에피소드를 통한 의사 에이전트(Doctor Agents)의 지속적 진화 평가

요약

핵심 포인트

댓글