증상만으로는 충분하지 않을 때: 대규모 언어 모델(LLM)의 정신과적 선별 검사 시 증거 가중치 패턴
요약
본 연구는 LLM을 활용한 정신과적 선별 검사의 신뢰성을 평가하기 위해 SCID 기반 벤치마크를 제안합니다. 5개의 최첨단 모델을 대상으로 증상, 기능적 손상, 보호적 맥락에 대한 가중치 패턴을 분석하여 모델의 진단 정확도와 오류 원인을 조사했습니다.
핵심 포인트
- SCID 기반의 정신 건강 진단 벤치마크 도입
- 모델별 정확도(0.49~0.86) 및 증거 가중치 패턴 차이 확인
- 보호적 맥락이 존재할 경우 증상 증거를 경시하는 경향 발견
- 임상 배치를 위한 신중한 검증 및 모델 개선 필요성 시사
정신 건강 관리(mental health care)에 대한 수요가 임상의가 직접 수행하는 평가 속도를 앞지름에 따라, 확장 가능한 선별 도구의 필요성이 점점 커지고 있습니다. 대규모 언어 모델(Large Language Models, LLMs)은 환자의 서사(narratives)로부터 정신과적 위험을 식별할 수 있지만, 진단명, 인구통계학적 하위 그룹 및 증거 사용 패턴 전반에 걸친 신뢰성은 여전히 불확실합니다. 본 연구에서는 불안 장애(anxiety disorder), 주요 우울 장애(major depressive disorder), 외상 후 스트레스 장애(post-traumatic stress disorder), 그리고 모든 현재 정신 건강 장애(any current mental health disorder)에 대한 진단 참조 레이블과 쌍을 이룬 555개의 반구조화된 경험적 인터뷰(semi-structured experiential interviews)로 구성된 SCID 기반 벤치마크를 소개합니다. 제로샷 태스크 특정 프롬프팅(zero-shot task-specific prompting)을 사용하여, 우리는 5개의 최첨단(state-of-the-art) LLM을 평가하고, 위음성(false-negative) 오류가 정신과적 증거를 놓친 것인지, 아니면 증상(symptom), 기능적 손상(functional-impairment), 보호적 맥락(protective-context) 단서에 대한 차등적 가중치 부여를 반영하는 것인지 조사했습니다. 성능은 태스크와 모델에 따라 달랐으며, 정확도(accuracy)는 0.49에서 0.86 사이, 매튜스 상관계수(Matthews correlation coefficients)는 0.16에서 0.38 사이였습니다. GPT-4.1 Mini와 GPT-5 Mini가 가장 일관된 장애별 정확도를 보여주었습니다. 하위 그룹 분석 결과, 남성 참가자가 여성 참가자보다 우울증 분류 정확도가 더 높았고, 일관된 연령 관련 패턴은 없었으며, 인종 계층 간에는 완만한 비균일 변동이 발견되었습니다. 증거 통합(evidence-integration) 분석에 따르면, 위음성 불안 및 PTSD 분류는 명시적인 증상 증거를 포함하고 있는 경우가 많았으나, 기능 유지(preserved functioning), 대처 능력(coping ability) 또는 사회적 지지(social support)가 동반되었습니다. 기능적 손상(functional-impairment) 증거는 모델 출력을 양성(positive) 분류로 이동시킨 반면, 보호적 맥락(protective-context) 증거는 출력을 멀어지게 했습니다. 이러한 결과는 LLM이 확장 가능한 정신과적 선별 검사를 지원할 수 있음을 시사하지만, 기능이 유지되거나 보호적 맥락이 존재하는 상황에서 증상 증거를 경시하는 경향은 임상 배치(clinical deployment) 전 신중한 검증이 필요함을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기