arXiv논문2026. 05. 06. 12:45

임상용 대형 언어 모델 (LLM) 의 안전성과 정확성은 다른 확장 법칙을 따른다

요약

본 논문은 임상 환경에서 대형 언어 모델(LLMs)의 안전성과 정확성이 단순히 모델 규모를 키우는 것만으로는 보장되지 않음을 지적합니다. 연구진은 'SaFE-Scale' 프레임워크와 방사선 안전에 초점을 맞춘 'RadSaFE-200' 벤치마크를 개발하여, 다양한 배포 조건(예: 깨끗한 증거 제공, 모순 증거 처리)에서 LLM의 성능을 평가했습니다. 그 결과, 단순히 모델 크기를 키우거나 표준 RAG/에이전트형 RAG를 사용하는 것보다 '깨끗한 증거'가 가장 강력하게 안전성을 향상시키는 것으로 나타났으며, 임상용 LLM의 안전성은 배포 속성(증거 품질, 검색 설계 등)에 의해 결정됨을 강조합니다.

핵심 포인트

임상용 LLMs의 안전성은 단순히 모델 규모 확대만으로는 보장되지 않으며, 다른 확산 법칙을 따릅니다.
제안된 SaFE-Scale 프레임워크와 RadSaFE-200 벤치마크는 임상 환경에서의 LLM 안전성을 체계적으로 측정합니다.
깨끗한 증거(clean evidence)를 제공하는 것이 평균 정확도를 높이고 고위험 오류 및 모순을 줄이는 데 가장 효과적인 방법입니다.
표준 RAG나 에이전트형 RAG만으로는 임상적 안전성 문제를 완전히 해결하지 못하며, 배포 속성이 중요합니다.
LLM의 안전성은 규모가 아닌 증거 품질, 검색 설계, 컨텍스트 구성 등 '배포 속성'에 의해 형성됩니다.

임상용 대형 언어 모델 (Clinical LLMs) 은 일반적으로 모델 크기, 컨텍스트 길이, 검색 복잡성, 또는 추론 시간 컴퓨팅 리소스를 증가시켜 규모를 확대하며, 이는 더 높은 정확도가 안전한 행동을 의미한다는 암묵적인 기대에 기반합니다. 그러나 의학 분야에서는 평균 벤치마크 성능보다 몇 가지 확신에 찬 고위험도 오류나 증거와 모순되는 오류가 더 중요할 수 있어 이 가설은 불완전합니다. 우리는 모델 규모, 증거 품질, 검색 전략, 컨텍스트 노출, 추론 시간 컴퓨팅에 따라 임상용 LLM 안전성이 어떻게 변화하는지를 측정하는 SaFE-Scale 프레임워크를 소개합니다. 이를 구현하기 위해, 의사가 정의한 깨끗한 증거 (clean evidence), 모순 증거 (conflict evidence) 및 고위험 오류, 불안전한 답변, 증거 모순에 대한 옵션 레벨 라벨을 포함한 200 개의 다중 선택 질문으로 구성된 RadSaFE-200 라는 방사선 안전에 중점을 둔 평가 벤치마크를 소개합니다. 우리는 6 가지 배포 조건 (클로즈드북 프롬프팅 (zero-shot), 깨끗한 증거, 모순 증거, 표준 RAG, 에이전트형 RAG, 최대 컨텍스트 프롬프팅) 에서 34 개의 로컬 배포 LLM 을 평가했습니다. 깨끗한 증거는 평균 정확도를 73.5% 에서 94.1% 로 증가시키고 고위험 오류를 12.0% 에서 2.6% 로, 모순을 12.7% 에서 2.3% 로, 위험한 과신 (dangerous overconfidence) 을 8.0% 에서 1.6% 로 줄이는 가장 강력한 효과를 보였습니다. 표준 RAG 와 에이전트형 RAG 는 이 안전 프로파일을 재현하지 못했습니다: 에이전트형 RAG 는 정확도를 개선하고 모순을 줄였지만 고위험 오류와 위험한 과신은 여전히 높게 유지되었습니다. 최대 컨텍스트 프롬프팅은 지연 시간을 증가시키면서 안전 격차를 닫지 않았으며, 추가 추론 시간 컴퓨팅은 제한적인 성과만 가져왔습니다. 최악의 경우 분석 (worst-case analysis) 은 임상적으로 중대한 오류가 소수의 질문에서 집중되었다는 것을 보였습니다. 따라서 임상용 LLM 안전성은 규모 확대의 수동적 결과라기보다는 증거 품질, 검색 설계, 컨텍스트 구성 및 집단 실패 행동에 의해 형성되는 배포 속성입니다.

AI 자동 생성 콘텐츠

원문 바로가기

임상용 대형 언어 모델 (LLM) 의 안전성과 정확성은 다른 확장 법칙을 따른다

요약

핵심 포인트

댓글