arXiv논문2026. 06. 30. 11:08

임상 증거의 강도는 언어 모델의 표현(representations)으로부터는 복구 가능하지만, 모델이 명시한 등급으로부터는 복구할 수 없다

요약

LLM의 내부 표현(representations)을 통해 임상 증거의 강도를 복구할 수 있지만, 모델이 직접 명시하는 등급은 신뢰할 수 없음을 밝힌 연구입니다. 모델의 활성화 값은 증거 수준을 인지하고 있으나, 텍스트로 출력되는 확신도는 실제 증거 강도와 일치하지 않습니다.

핵심 포인트

LLM 내부 표현을 통해 임상 증거 등급 복구 가능 (AUROC 71.8)
모델이 직접 명시하는 등급은 확률 수준에 불과함
증거 복구 신호는 주로 어휘적이며 모델 규모에 비례하지 않음
추론 모델에서 증거 등급 해독 능력이 가장 낮게 나타남

대규모 언어 모델 (LLMs)은 임상 증거를 요약하는 역할을 점점 더 많이 수행하고 있으며, 여기서 주장의 무게는 그것이 얼마나 강력하게 뒷받침되는지에 따라 달라집니다. 하지만 이러한 모델들은 확신(confidence)을 제대로 전달하지 못하며, 진실(truth)과 같이 모델이 결코 명시하지 않는 속성들이 종종 모델의 활성화(activations)로부터 읽힐 수 있습니다. 임상 모델이 진실과는 구별되는 증거의 강도를 인지하고 질문을 받았을 때 이를 명시하는지 여부는 아직 검증되지 않았으며, 그러한 신호가 단순히 어휘적(lexical)일 수도 있습니다. 우리는 6개의 공개 소스로부터 45,134개의 임상 주장(clinical claims)을 수집하였고, 이를 세 가지 독립적인 프레임워크 하에 4단계 증거 등급(evidence grade)으로 20,611개를 조화(harmonized)시켰습니다. 또한 여러 개발사의 22개 로컬 오픈 웨이트 (open-weight) LLM (0.6-70 billion parameters; 일반, 의료 및 추론 모델)을 대상으로 어휘적, 진실 및 프레임워크 간 대조군(controls)을 사용하여 테스트했습니다. 선형 추정기(linear estimator)는 모든 모델에서 등급을 복구해냈으나 (중앙값 AUROC 71.8), 해독 가능성(decodability)은 모델의 규모(scale)에 따라 증가하지 않았으며 추론 모델에서 가장 약하게 나타났습니다. 모델이 명시한 등급은 확률 수준(chance)으로 떨어졌으며, 이는 추정기보다 25-27 퍼센트 포인트 낮았습니다. 복구 가능한 신호는 주로 어휘적이었으며 주제나 프레임워크 간에 전이되지 않았지만, 사실적 진실(factual truth)과는 구별되었으며 여전히 약하게 뒷받침되는 주장들을 약하게 식별해냈습니다 (AUROC 69.2). 따라서 임상 LLM은 스스로 표현하지는 않지만 순서화된 증거 강도 신호를 보유하고 있으며, 결과적으로 모델이 명시한 등급은 그 표현(representations)과 텍스트로부터 복구가 가능할 때조차 주장의 뒷받침 정도를 전달하는 데 실패합니다.

AI 자동 생성 콘텐츠

원문 바로가기

임상 증거의 강도는 언어 모델의 표현(representations)으로부터는 복구 가능하지만, 모델이 명시한 등급으로부터는 복구할 수 없다

요약

핵심 포인트

댓글