MHGraphBench: 지식 그래프 기반 대규모 언어 모델의 정신 건강 지식 벤치마킹
요약
MHGraphBench는 대규모 언어 모델(LLMs)이 정신 건강 관련 생물 의학 지식을 얼마나 정확하게 파악하고 구조화된 판단을 내릴 수 있는지 평가하기 위한 지식 그래프(KG) 기반 벤치마크입니다. PrimeKG를 활용하여 개체명 인식, 관계 판단, 2-홉 추론 등 9개의 태스크 패밀리를 통해 모델의 능력을 검증합니다. 실험 결과, 모델들이 개체 분류에는 능숙하지만 복잡한 관계 예측과 추론에는 여전히 한계가 있음이 드러났습니다.
핵심 포인트
- PrimeKG를 기반으로 정신 건강 분야의 개체명 인식, 관계 판단, 2-홉 추론을 평가하는 벤치마크 제시
- LLM 모델들 사이에서 개체 인식 능력과 실제 판단 능력 간의 격차(recognition-to-judgment gap) 확인
- 선도적인 모델들도 관계 예측 및 2-홉 추론 작업에서는 성능 저하를 보임
- 출력 형식의 신뢰성이 벤치마크 성능 측정에 결정적인 영향을 미침을 강조
대규모 언어 모델 (LLMs)이 정신 건강 분야에서 점점 더 많이 사용되고 있지만, 이들이 관련 생물 의학 지식 (biomedical knowledge)을 얼마나 잘 포착하는지, 그리고 임상적으로 중요한 구조화된 판단 (structured judgments)에 이를 얼마나 신뢰성 있게 적용하는지는 여전히 불분명합니다. 본 논문에서는 정신 건강 개체명 인식 (entity recognition), 관계 판단 (relation judgment), 그리고 2-홉 추론 (two-hop reasoning)에 대해 LLMs를 평가하기 위한 지식 그래프 (KG) 기반 벤치마크를 제시합니다. 이 벤치마크는 PrimeKG로부터 파생되었으며, KG로 지원되는 정답과 통제된 오답 옵션을 포함하는 9개의 태스크 패밀리 (task families)로 구성됩니다. 15개의 폐쇄형 및 오픈 소스 LLMs를 대상으로 한 실험 결과, 인식과 판단 사이의 지속적인 격차 (recognition-to-judgment gap)가 드러났습니다. 선도적인 모델들은 개체 유형 분류 (entity typing)와 소규모 관계 유형 분류 (relation-typing) 서브셋에서는 거의 만점에 가까운 성능을 달성했으나, 관계 예측 (relation prediction)과 2-홉 추론 (two-hop reasoning)에서는 여전히 어려움을 겪고 있습니다. 또한, KG에서 파생된 짧은 스니펫 (snippets)은 일부 모델에는 도움이 되지만 다른 모델의 성능은 저하시킵니다. 더욱이, 출력 형식의 신뢰성 (output-format reliability)은 제약된 객관식 설정 하에서 측정된 성능에 상당한 영향을 미칠 수 있으며, 이는 벤치마크 기반 평가에서 응답 유효성 (response validity)의 결정적인 역할을 강조합니다. 따라서 MHGraphBench는 실제 임상적 안전성 (clinical safety)에 대한 직접적인 평가라기보다는, 제약된 객관식 인터페이스 하에서 PrimeKG의 선별된 정신 건강 데이터 세트에 대한 일치도를 평가하는 것으로 해석되어야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기