arXiv논문2026. 05. 06. 18:52

SymptomAI: 일상적인 증상 평가용 대화형 AI 에이전트 개발

요약

SymptomAI는 Fitbit 앱을 통해 13,917명의 일반 참가자와 상호작용하도록 설계된 대화형 AI 에이전트 세트로, 일상적인 증상 평가 및 감별 진단(DDx)에 초점을 맞추고 있습니다. 이 시스템은 실제 세계의 다양한 소통 패턴과 질병 분포를 포착하여 구축되었으며, 무작위 이중 맹검 비교 결과 독립적인 의사의 진단보다 유의하게 높은 정확도를 보였습니다. 특히, 추가 증상 정보를 체계적으로 유도하는 특화된 '증상 인터뷰' 에이전트 전략은 일반 대화나 사용자 안내 대화보다 훨씬 뛰어난 성능을 입증했습니다. 이 연구는 소비자 LLM들이 기본 설정으로 사용하는 방식의 한계를 지적하며, 전문적인 임상 증상 평가의 중요성을 강조합니다.

핵심 포인트

SymptomAI는 13,917명의 일반 참가자를 대상으로 실제 생활 환경에서 증상을 수집한 대화형 AI 에이전트이다.
SymptomAI의 진단 정확도는 독립적인 의사의 진단보다 통계적으로 유의하게 높았다 (OR = 2.47).
추가 정보를 체계적으로 이끌어내는 '증상 인터뷰' 전략이 일반 대화 방식보다 임상적 평가에 훨씬 효과적임을 입증했다.
수집된 데이터를 활용하여 웨어러블 지표와 질병 간의 연관성(예: 인플루엔자)을 분석할 수 있음을 보여주었다.

언어 모델은 정제된 의학적 사례 연구 및 시나리오에서 진단 평가를 수행하며, 임상 전문가와 동등하거나 더 높은 성능을 보입니다. 그러나 기존 연구들은 풍부한 컨텍스트를 가진 복잡한 시나리오에 초점을 맞추어 일상생활에서 증상을 보고하는 환자对于这些 시스템의 성능에 대한 결론을 도출하기 어렵게 만듭니다.

우리는 Fitbit 앱에서 13,917 명의 참가자를 무작위 할당하여 상호작용하도록 설정한 SymptomAI 를 배포했습니다. SymptomAI 는端到端患者访谈和鉴别诊断(DDx)를 위한 대화형 AI 에이전트 세트입니다. 이 코퍼스 (corpus) 는 실제 세계 인구에서 다양한 소통과 현실적인 질병 분포를 포착합니다.

1,228 명의 참가자가 의사가 제공한 진단을 보고했으며, 517 명은 250 시간 이상의 주석 작업 동안 임상 전문가 패널에 의해 추가 평가되었습니다. SymptomAI DDx 는 동일한 대화에서 무작위 이중 맹검 비교를 통해 독립적인 의사의 진단보다 유의하게 더 정확했습니다 (OR = 2.47, p < 0.001). 또한, 진단을 제공하기 전에 추가 증상 정보를 유도하는 데 특화된 증상 인터뷰를 수행하는 에이전트 전략은 기본 및 사용자 안내 대화 (p < 0.001) 보다 훨씬 더 잘 수행됩니다.

일반 미국 인구 패널의 1,509 회 대화에 대한 보조 분석은 이러한 결과가 웨어러블 기기 사용자를 넘어 일반화됨을 입증했습니다. 우리는 SymptomAI 진단을 모든 13,917 명의 참가자의 라벨로 사용하여 거의 400 가지 고유한 조건에 걸친 50 만 일 이상의 웨어러블 지표를 분석했습니다. 급성 감염과 생리적 변화 (예: 인플루엔자 OR > 7) 사이의 강력한 연관성을 식별했습니다.

자신이 보고한 ground truth 에 의해 제한되기는 하지만, 이러한 결과는 사용자 안내 증상 논의에 비해 특화되고 완전한 증상 인터뷰의 이점을 증명합니다. 이는 대부분의 소비자 LLM 의 기본 설정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

SymptomAI: 일상적인 증상 평가용 대화형 AI 에이전트 개발

요약

핵심 포인트

댓글