arXiv논문2026. 06. 11. 13:13

오해의 소지가 있는 의료 상황에서 LLM의 인식적 회복탄력성 측정

요약

본 연구는 LLM이 오해의 소지가 있는(misleading) 의료 상황에서 얼마나 정확한 판단을 내리는지 평가하기 위해 MedMisBench를 개발했습니다. 기존 벤치마크가 모델의 지식 측정에만 초점을 맞춘 반면, 본 연구는 적대적 문맥 하에서의 '인식적 회복탄력성'을 측정합니다. 테스트 결과, LLM은 오해의 소지가 있는 문맥에서 정확도가 크게 떨어지는 등 취약성을 보였습니다.

핵심 포인트

LLM이 오해의 소지 있는 상황에서 판단력이 저하됨을 확인했습니다.
MedMisBench는 의료 추론 및 적대적 환경에서의 모델 평가를 위한 새로운 벤치마크입니다.
권위 기반 허위 정보가 가장 해로운 주입 방식이었으며, 공격 성공률은 높았습니다.

대규모 언어 모델(LLMs)은 현재 의학 면허 시험에서 전문가 수준의 점수를 기록하며, 높은 점수가 안전한 의료 판단을 의미한다는 가정을 부추기고 있습니다. 게다가 환자들은 건강 조언을 위해 LLMs를 점점 더 많이 사용하고 있습니다. 우리는 이러한 가정이 취약하다는 것을 보여줍니다: LLMs가 원래 정답으로 답했던 질문에 오해의 소지가 있는 문맥이 주입될 때, 모델들은 올바른 답변을 포기합니다. 우리는 적대적인(adversarial) 문맥 하에서도 정확한 판단을 유지하는 능력을 인식적 회복탄력성(epistemic resilience)이라고 부르며, 이를 측정하기 위해 MedMisBench를 소개합니다. MedMisBench는 의료 추론, 에이전트 역량(agentic capability), 환자 여정 평가에 걸쳐 10,932개의 의료 질문 항목과 48,889개의 오해의 소지가 있는 문맥-선택지 쌍을 포함하고 있습니다. 11가지 모델 구성을 거치면서 평균 정확도는 원래 질문에서는 71.1%였으나, 집중적인 오해의 소지가 있는 문맥 하에서는 38.0%로 떨어졌으며, 공격 성공률은 51.5%를 기록했습니다. 가장 해로운 주입 방식은 형식적이고 규칙 같은 허위 정보였습니다: 권위 기반의 거짓 정보는 69.5%의 공격 성공률에 도달했고, 예외 오염(exception-poisoning) 주장들은 64.1%에 달했습니다. 7개국 출신의 14명으로 구성된 임상 패널은 검토된 사례 중 38.2%에서 심각한 잠재적 피해를 확인했습니다. MedMisBench는 의료 환경에서의 LLM 평가에 구조적인 사각지대를 드러냅니다: 기존의 벤치마크들은 모델이 무엇을 알고 있는지를 측정할 뿐, 오해의 소지가 있는 문맥 하에서도 올바른 의료 판단을 유지하는지를 측정하지 못합니다.

AI 자동 생성 콘텐츠

원문 바로가기

오해의 소지가 있는 의료 상황에서 LLM의 인식적 회복탄력성 측정

요약

핵심 포인트

댓글