MHGraphBench: 지식 그래프 기반 대규모 언어 모델의 정신 건강 지식 벤치마킹

대규모 언어 모델 (LLMs)이 정신 건강 분야에서 점점 더 많이 사용되고 있지만, 이들이 관련 생물 의학 지식 (biomedical knowledge)을 얼마나 잘 포착하는지, 그리고 임상적으로 중요한 구조화된 판단 (structured judgments)에 이를 얼마나 신뢰성 있게 적용하는지는 여전히 불분명합니다. 본 논문에서는 정신 건강 개체명 인식 (entity recognition), 관계 판단 (relation judgment), 그리고 2-홉 추론 (two-hop reasoning)에 대해 LLMs를 평가하기 위한 지식 그래프 (KG) 기반 벤치마크를 제시합니다. 이 벤치마크는 PrimeKG로부터 파생되었으며, KG로 지원되는 정답과 통제된 오답 옵션을 포함하는 9개의 태스크 패밀리 (task families)로 구성됩니다. 15개의 폐쇄형 및 오픈 소스 LLMs를 대상으로 한 실험 결과, 인식과 판단 사이의 지속적인 격차 (recognition-to-judgment gap)가 드러났습니다. 선도적인 모델들은 개체 유형 분류 (entity typing)와 소규모 관계 유형 분류 (relation-typing) 서브셋에서는 거의 만점에 가까운 성능을 달성했으나, 관계 예측 (relation prediction)과 2-홉 추론 (two-hop reasoning)에서는 여전히 어려움을 겪고 있습니다. 또한, KG에서 파생된 짧은 스니펫 (snippets)은 일부 모델에는 도움이 되지만 다른 모델의 성능은 저하시킵니다. 더욱이, 출력 형식의 신뢰성 (output-format reliability)은 제약된 객관식 설정 하에서 측정된 성능에 상당한 영향을 미칠 수 있으며, 이는 벤치마크 기반 평가에서 응답 유효성 (response validity)의 결정적인 역할을 강조합니다. 따라서 MHGraphBench는 실제 임상적 안전성 (clinical safety)에 대한 직접적인 평가라기보다는, 제약된 객관식 인터페이스 하에서 PrimeKG의 선별된 정신 건강 데이터 세트에 대한 일치도를 평가하는 것으로 해석되어야 합니다.

Insights

MHGraphBench: 지식 그래프 기반 대규모 언어 모델의 정신 건강 지식 벤치마킹

요약

핵심 포인트

댓글

AI 에이전트 ROI 사례 연구: 송장 대조(Invoice Reconciliation) 속도 73% 향상

내가 얻지 못한 호환성 주장

AI 테스트 자동화에는 맹목적인 신뢰가 아닌 검토 게이트(Review Gates)가 필요합니다

사례 연구: 실행 모드로서의 루프(Loop) — 제어력을 잃지 않으면서 에이전트가 반복하게 하는 방법

AI 에이전트 ROI 사례 연구: 송장 대조(Invoice Reconciliation) 속도 73% 향상

내가 얻지 못한 호환성 주장

AI 테스트 자동화에는 맹목적인 신뢰가 아닌 검토 게이트(Review Gates)가 필요합니다

사례 연구: 실행 모드로서의 루프(Loop) — 제어력을 잃지 않으면서 에이전트가 반복하게 하는 방법