본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 20. 10:55

장기 이력 인지형 의료 대화의 합성 및 평가

요약

본 연구는 환자의 장기적인 의료 이력을 기억하고 추론할 수 있는 헬스케어 에이전트 개발을 위해, LLM을 활용하여 고품질의 장기 의료 대화 데이터셋인 MediLongChat을 구축하는 프레임워크를 제안합니다. 지식 가이드 분해 방식을 통해 합성 환자 프로필과 다회차 대화를 생성하며, 에이전트의 메모리 능력을 평가하기 위한 세 가지 벤치마크 태스크와 다차원 평가 프레임워크를 도입했습니다. 실험 결과, 최신 LLM들도 MediLongChat의 복잡한 추론 과제를 수행하는 데 어려움을 겪는 것으로 나타나 벤치마크의 유효성을 입증했습니다.

핵심 포인트

  • 장기 의료 이력을 반영한 합성 대화 데이터셋 MediLongChat 구축 프레임워크 제안
  • 지식 가이드 분해(Knowledge-guided decomposition)를 통한 환자 프로필 및 다회차 대화 생성
  • 대화 내, 대화 간, 합성 추론을 포함하는 헬스케어 에이전트 전용 벤치마크 태스크 설정
  • 벡터 기반 지표와 LLM-as-a-judge를 결합한 다차원 데이터 품질 평가 체계 도입
  • 최신 LLM 모델들이 장기 의료 맥락 추론에서 한계를 보임을 확인

효과적인 헬스케어 에이전트 (Healthcare agent)는 환자의 종단적 의료 이력 (Longitudinal medical history)을 회상하고 이를 바탕으로 추론할 수 있어야 합니다. 그러나 현실적인 장기 대화 타임라인을 갖춘 데이터셋의 부재는 체계적인 평가를 제한합니다. 실제 임상 텍스트는 개인정보 보호와 윤리 문제로 제약이 있으며, 기존의 벤치마크 (Benchmarks)는 고립된 상호작용에 집중하여 세션 간 추론 (Cross-session reasoning)을 포착하지 못합니다. 본 연구에서는 LLM (Large Language Models)을 사용하여 고품질의 장기 의료 대화를 합성하기 위한 프레임워크를 소개합니다. 우리의 접근 방식은 지식 가이드 분해 (Knowledge-guided decomposition)를 통해 세 단계로 진행됩니다: 다양한 질병 및 합병증 궤적을 가진 합성 환자 프로필 (Synthetic patient profiles) 구축, 각 진료 시점별 다회차 대화 (Multi-turn dialogues) 생성, 그리고 이를 일관된 종단적 이력 데이터셋인 MediLongChat으로 통합하는 것입니다. 우리는 헬스케어 에이전트의 메모리 능력을 평가하기 위해 대화 내 추론 (In-dialogue Reasoning), 대화 간 추론 (Cross-dialogue Reasoning), 합성 추론 (Synthesis Reasoning)이라는 세 가지 벤치마크 태스크를 설정합니다. 데이터 품질을 평가하기 위해, 벡터 기반 지표와 LLM-as-a-judge 평가를 결합한 다차원 평가 프레임워크를 도입합니다. 구체적으로, 충실도 (Faithfulness), 일관성 (Coherence), 다양성 (Diversity)이라는 자동 측정 지표와 함께, 정확성 (Correctness) 및 현실성 (Realism)이라는 두 가지 LLM 기반 평가를 정의합니다. 벤치마크 실험 결과, 최첨단 LLM (State-of-the-art LLMs)조차 MediLongChat을 다루는 데 어려움을 겪는 것으로 나타났습니다. 이러한 결과는 본 벤치마크의 적용 가능성을 강조하며, 헬스케어 에이전트를 발전시키기 위한 맞춤형 방법론의 필요성을 뒷받침합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0