프롬프트 유도 (Prompt Induction) 를 통한 우울증 증상 증거 학습

우울증은 정신건강 서비스에 상당한 부담을 주며, 많은 사람들이 임상 환경 밖에서 고빈도 사용자 생성 텍스트 (예: 온라인 포럼 및 소셜 미디어) 를 통해 자신의 경험을 서술합니다. 따라서 이러한 텍스트 내에서 임상적 증상 증거를 자동으로 식별하는 것은 제한된 임상 능력을 보완하고 대규모 인구 집단으로 확장할 수 있습니다. 우리는 BDI-II 설문지의 21 가지 우울증 증상을 문장 수준의 분류를 통해 이 필요에 대응하며, 증상 관련성 (symptom relevance) 이 주석 처리된 데이터셋인 BDI-Sen 을 사용합니다. 이 작업은 세분화 (fine-grained) 가 되며 고도로 불균형 (highly imbalanced) 한데, 우리는 일반적인 대규모 언어 모델 (LLM) 접근법 (zero-shot, in-context learning, fine-tuning) 이 대부분의 증상에서 일관된 관련성 기준을 적용하는 데 어려움을 겪는다는 것을 발견했습니다. 우리는 각 증증이 증거로 간주되는 내용을 명시하는 짧은 해석 가능한 지침으로 레이블이 지정된 예시를 압축하고 이러한 지침을 사용하여 분류를 조건화 (condition classification) 하는 새로운 접근법인 증상 유도 (Symptom Induction, SI) 를 제안합니다. 네 가지 LLM 계열과 8 개의 모델에 걸쳐 SI 는 BDI-Sen 에서 전반적으로 가장 높은 가중치 F1 점수를 달성하며, 특히 빈도가 낮은 증상에서 큰 향상을 보입니다. 외부 데이터셋에 대한 교차 도메인 평가는 유도된 지침이 양극성 장애 (bipolar) 와 섭식 장애 (eating disorders) 와 같이 공통된 증상학을 공유하는 다른 질환에서도 일반화됨을 추가로 보여줍니다.

Insights

프롬프트 유도 (Prompt Induction) 를 통한 우울증 증상 증거 학습

요약

핵심 포인트

댓글

TAKT의 모델 구성, 실행하면 비용이 반드시 악화될까? 벤치마크 스코어 기반 5가지 구성 비교

AI에게 몇 번이나 수정을 요구했는지 측정하는 대화형 벤치마크 SWE-Together

AI 에이전트 지시 설계 완전 가이드 — Claude Code / Cursor / GitHub Copilot으로 성과를 내는 프롬프트

AI가 작성한 코드를 인간이 읽을 수 있는 언어 — Jacquard v0.1 rc3 사용 기록

TAKT의 모델 구성, 실행하면 비용이 반드시 악화될까? 벤치마크 스코어 기반 5가지 구성 비교

AI에게 몇 번이나 수정을 요구했는지 측정하는 대화형 벤치마크 SWE-Together

AI 에이전트 지시 설계 완전 가이드 — Claude Code / Cursor / GitHub Copilot으로 성과를 내는 프롬프트

AI가 작성한 코드를 인간이 읽을 수 있는 언어 — Jacquard v0.1 rc3 사용 기록