arXiv논문2026. 06. 17. 11:07

AI 정신 건강 대화로부터 수동적 우울증 심각도 추정을 위한 LLM 미세 조정 (Fine-tuning)

요약

AI 정신 건강 대화 데이터를 활용하여 사용자의 우울증 심각도(PHQ-9 점수)를 추정하는 연구입니다. Qwen3.5-27B 모델을 미세 조정하여 대화 전사본만으로 임상적 임계값을 높은 정확도로 예측하는 데 성공했습니다.

핵심 포인트

대화 텍스트만으로 PHQ-9 점수를 예측하는 수동적 모니터링 방식 제안
Qwen3.5-27B 모델을 회귀 헤드와 함께 미세 조정하여 성능 최적화
Claude Opus를 활용한 의사 라벨(pseudolabels) 증강 기법 적용
임상 임계값 기준 AUC 0.91 달성 및 전 범위에서 높은 성능 입증

우울증은 전 세계적으로 장애를 일으키는 주요 원인이며, 증상 변화를 조기에 발견하는 것은 적시 개입을 위해 필수적입니다. Patient Health Questionnaire-9 (PHQ-9)와 같이 검증된 도구들은 대규모 증상 모니터링을 지원하지만, 실제 환경에서의 완료율은 낮으며, 이는 응답 편향 (response bias)과 체계적 결측 (systematic missingness)을 초래합니다. 일상적으로 생성되는 데이터로부터 심각도를 추론하는 수동적 (Passive) 접근 방식은 이러한 격차를 해소할 수 있습니다. 본 연구에서는 추가적인 임상 데이터 없이 대화 텍스트만을 사용하여, 사용자와 AI 정신 건강 애플리케이션 간의 대화 전사본 (transcripts)으로부터 PHQ-9 총점을 직접 예측함으로써 이 문제를 해결합니다. 우리는 Qwen3.5-27B 백본 (backbone)을 회귀 헤드 (regression head)와 함께 미세 조정 (fine-tuning)하였으며, 3,111개의 정답 라벨 (ground-truth labels)을 추론 모델 (Claude Opus) 및 반복적으로 훈련된 중간 모델들이 생성한 의사 라벨 (pseudolabels)로 증강하여 총 6,283명의 사용자로 구성된 결합 데이터셋을 구축했습니다. 842명의 사용자로 구성된 홀드아웃 테스트 세트 (held-out test set)에서, 우리의 최적 모델은 PHQ-9 >= 10 임상 임계값(clinical threshold) 기준 MAE = 2.6, RMSE = 4.0, Pearson r = 0.80, 그리고 AUC = 0.91을 달성했습니다. 또한 PHQ-9 >= 3부터 PHQ-9 >= 24까지 모든 심각도 임계값에서 AUC > 0.87을 기록하여, 모델이 전체 임상 스펙트럼에 걸쳐 우울증 심각도를 포착함을 입증했습니다. 본 연구는 사용자가 자기 보고식 측정 (self-report measures)을 완료할 필요 없이, AI 정신 건강 플랫폼에서 수동적이고 지속적인 증상 모니터링을 가능하게 하는 길을 열어줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

AI 정신 건강 대화로부터 수동적 우울증 심각도 추정을 위한 LLM 미세 조정 (Fine-tuning)

요약

핵심 포인트

댓글