arXiv논문2026. 06. 08. 10:33

대규모 언어 모델(LLM)이 의료 분야에서 실패하는 이유: 프롬프트 변형에 대한 민감도 평가

요약

본 연구는 의료 분야에서 LLM이 프롬프트의 미세한 변화에 얼마나 민감하게 반응하는지 분석합니다. GPT-3.5, Llama3, BioLlama3 등 범용 및 의료 특화 모델을 대상으로 실험한 결과, 구문적 변화와 적대적 프롬프트에 모델의 성능과 안전성이 크게 저하됨을 확인했습니다.

핵심 포인트

프롬프트의 어휘 및 구문적 변화가 임상적 판단을 변화시킴
적대적 프롬프트 사용 시 잘못된 약물 용량 권장 등 위험 발생
범용 및 의료 특화 모델 모두에서 낮은 강건성 확인
구문적 재배열과 오도하는 문맥 단서에 취약함

대규모 언어 모델 (Large Language Models, LLMs)은 임상 질문 답변, 진단 지원, 보고서 요약과 같은 의료 업무에 점점 더 많이 사용되고 있습니다. 이러한 가능성에도 불구하고, 이 모델들은 어휘적(lexical) 및 구문적(syntactic)인 미세한 프롬프트 섭동(perturbations)에 매우 민감하며, 이는 안전이 중요한 임상 애플리케이션에서 심각한 위험을 초래합니다. 본 연구에서는 MedMCQA 벤치마크를 사용하여 범용 LLM (예: GPT-3.5, Llama3)과 의료 특화 LLM (예: ClinicalBERT, BioLlama3, BioBERT) 모두의 강건성(robustness)을 평가하기 위한 체계적인 민감도 분석을 수행합니다. 우리는 섭동을 자연적(natural) 유형과 적대적(adversarial) 유형으로 분류하고, 임상 추론 작업에서 모델의 일관성(consistency), 정확도(accuracy) 및 신뢰성(reliability)에 미치는 영향을 조사합니다. 연구 결과에 따르면 의료용 LLM은 본질적으로 안전하지 않은 것으로 나타났습니다. 문구의 미세한 변화만으로도 임상적 조언이 바뀔 수 있으며, 표적화된 적대적 프롬프트는 해로운 출력을 유발할 수 있습니다. 의료와 같이 이해관계가 큰 환경에서 이러한 예측 불가능성은 용납될 수 없습니다. 입력 문구가 재구성되었다고 해서 진단이 바뀌거나, 약간의 재구문화 시 약물을 환각(hallucinate)하는 모델은 임상의들이 신뢰할 수 없습니다. 모델들은 단순한 어휘 치환이나 의역(paraphrasing)에는 회복력(resilience)을 보이는 경향이 있지만, 구문적 재배열(syntactic reordering)이나 오도하는 문맥적 단서(misleading contextual cues) 하에서는 종종 성능이 무너집니다. 이러한 취약성은 범용 및 도메인 특화 LLM 모두에서 명확하게 나타납니다. 특히, 적대적 조작은 잘못된 용량을 권장하거나 중요한 소견을 누락하는 것과 같이 임상적으로 위험한 출력을 초래할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM)이 의료 분야에서 실패하는 이유: 프롬프트 변형에 대한 민감도 평가

요약

핵심 포인트

댓글