대규모 언어 모델(LLM)을 활용한 데이터 증강 기반 인지 점수 예측 및 임상 평가 연구

자발적 발화(Spontaneous speech)를 통한 인지 저하의 정확한 평가는 제한된 데이터셋 규모와 클래스 불균형(Class imbalance) 문제로 인해 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 발화로부터 인지 점수를 예측하는 성능을 향상시키기 위해 대규모 언어 모델(LLM) 기반의 데이터 증강(Data augmentation) 프레임워크를 제안합니다. 실험은 각 참가자가 동일한 임상 프롬프트에 대해 자발적인 구두 서사와 서면 응답을 모두 제공하는 일본어 코퍼스(Corpus)를 대상으로 수행되었습니다. 서면 응답은 GPT-5를 사용하여 다양한 스타일의 구어체 독백을 생성하기 위한 의미론적 앵커(Semantic anchors) 역할을 합니다. 이후 Sentence-BERT 발화 임베딩(Speech embeddings)으로 학습된 부분 최소 제곱 회귀(Partial Least Squares regression) 모델을 사용하여, 일본에서 널리 사용되는 인지 선별 도구인 Hasegawa Dementia Scale 점수를 예측합니다. 우리는 두 가지 증강 전략을 조사했습니다: 적당하지만 불안정한 개선을 보이는 무작위 클래스 균형 선택(Random class-balanced selection), 그리고 유사도 가이드 클래스 균형 선택(Similarity-guided class-balanced selection)입니다. 후자는 의미론적으로 유사한 합성 샘플을 우선시하며, 이는 더 일관된 개선을 이끌어내고 다수 그룹의 성능을 유지하면서도 소수 그룹인 저점수 참가자들에 대한 예측 오차를 실질적으로 감소시켰습니다. 종합적으로, 우리의 연구 결과는 의미론적으로 가이드된 LLM 기반 증강이 임상 발화 분석에서 클래스 불균형을 해결하고 데이터 효율성을 높이기 위한 원칙적인 접근 방식으로서 잠재력이 있음을 보여줍니다.

Insights

대규모 언어 모델(LLM)을 활용한 데이터 증강 기반 인지 점수 예측 및 임상 평가 연구

요약

핵심 포인트

댓글

Southwest, 단위당 매출 성장 전망 유지에 따라 2026년 조정 EPS를 $3.25~$4.25로 전망

시장이 공포에 빠졌을 때 Qualcomm 주식은 어떻게 움직이는가

Amkor Technology, NVIDIA, 미국 AI 칩 패키징 강화를 위한 다년 계약 체결

D.R. Horton (DHI) 2026년 3분기 실적 발표 컨퍼런스 콜 녹취록

Southwest, 단위당 매출 성장 전망 유지에 따라 2026년 조정 EPS를 $3.25~$4.25로 전망

시장이 공포에 빠졌을 때 Qualcomm 주식은 어떻게 움직이는가

Amkor Technology, NVIDIA, 미국 AI 칩 패키징 강화를 위한 다년 계약 체결

D.R. Horton (DHI) 2026년 3분기 실적 발표 컨퍼런스 콜 녹취록