장기 이력 인지형 의료 대화의 합성 및 평가

효과적인 헬스케어 에이전트 (Healthcare agent)는 환자의 종단적 의료 이력 (Longitudinal medical history)을 회상하고 이를 바탕으로 추론할 수 있어야 합니다. 그러나 현실적인 장기 대화 타임라인을 갖춘 데이터셋의 부재는 체계적인 평가를 제한합니다. 실제 임상 텍스트는 개인정보 보호와 윤리 문제로 제약이 있으며, 기존의 벤치마크 (Benchmarks)는 고립된 상호작용에 집중하여 세션 간 추론 (Cross-session reasoning)을 포착하지 못합니다. 본 연구에서는 LLM (Large Language Models)을 사용하여 고품질의 장기 의료 대화를 합성하기 위한 프레임워크를 소개합니다. 우리의 접근 방식은 지식 가이드 분해 (Knowledge-guided decomposition)를 통해 세 단계로 진행됩니다: 다양한 질병 및 합병증 궤적을 가진 합성 환자 프로필 (Synthetic patient profiles) 구축, 각 진료 시점별 다회차 대화 (Multi-turn dialogues) 생성, 그리고 이를 일관된 종단적 이력 데이터셋인 MediLongChat으로 통합하는 것입니다. 우리는 헬스케어 에이전트의 메모리 능력을 평가하기 위해 대화 내 추론 (In-dialogue Reasoning), 대화 간 추론 (Cross-dialogue Reasoning), 합성 추론 (Synthesis Reasoning)이라는 세 가지 벤치마크 태스크를 설정합니다. 데이터 품질을 평가하기 위해, 벡터 기반 지표와 LLM-as-a-judge 평가를 결합한 다차원 평가 프레임워크를 도입합니다. 구체적으로, 충실도 (Faithfulness), 일관성 (Coherence), 다양성 (Diversity)이라는 자동 측정 지표와 함께, 정확성 (Correctness) 및 현실성 (Realism)이라는 두 가지 LLM 기반 평가를 정의합니다. 벤치마크 실험 결과, 최첨단 LLM (State-of-the-art LLMs)조차 MediLongChat을 다루는 데 어려움을 겪는 것으로 나타났습니다. 이러한 결과는 본 벤치마크의 적용 가능성을 강조하며, 헬스케어 에이전트를 발전시키기 위한 맞춤형 방법론의 필요성을 뒷받침합니다.

Insights

장기 이력 인지형 의료 대화의 합성 및 평가

요약

핵심 포인트

댓글

중국이 큰 것을 공개했습니다

Fable 5가 8시간 분량의 작업을 15분으로 압축합니다.

Hugging Face 생태계를 무료 버전으로 가져온 Hugging Bay

GSK가 신경과학 협력 계약을 종료하면서 Alector 주가가 13% 급락

Fable 5가 8시간 분량의 작업을 15분으로 압축합니다.

Hugging Face 생태계를 무료 버전으로 가져온 Hugging Bay

GSK가 신경과학 협력 계약을 종료하면서 Alector 주가가 13% 급락