Frontier LLM에서의 조기 결론 (Premature Closure) 정량화 및 완화
요약
본 기사는 대규모 언어 모델(LLMs)에서 발생하는 '조기 결론(Premature closure)' 문제를 다루며, 이를 불확실성 하에서의 부적절한 확신으로 정의합니다. 연구진은 구조화 및 개방형 의료 작업에 다섯 가지 Frontier LLM을 평가한 결과, 높은 비율로 답변을 제공하는 경향을 발견했습니다. 특히 정답 선택지가 제거된 MedQA와 AfriMed-QA 같은 상황에서 모델들은 여전히 높은 오작동률을 보였으며, 이는 안전 지향적 프롬프팅만으로는 해결되지 않는 근본적인 문제임을 시사합니다.
핵심 포인트
- LLM의 조기 결론은 '불확실성 하에서의 부적절한 확신'으로 정의되며, 명확한 확인이나 거부 등의 대응이 더 안전함에도 불구하고 답변을 제공하는 행위입니다.
- 다섯 가지 Frontier LLM에 대한 의료 작업 평가 결과, 모델들은 정답 선택지가 제거된 상황에서도 높은 비율로 오작동(false-action rates)하며 부적절한 확신을 보였습니다.
- 개방형 질문 및 적대적 질의 테스트에서 평균 30%~78% 수준으로 모델들이 부적절한 답변을 내놓는 경향이 확인되었습니다.
- 안전 지향적 프롬프팅(Safety-oriented prompting)이 조기 결론을 감소시키기는 했으나, LLM이 '언제 답변하지 말아야 하는지'를 아는지 평가하는 것이 중요함을 강조합니다.
조기 결론 (Premature closure), 즉 충분한 정보가 확보되기 전에 결론을 내리는 행위는 진단 오류의 알려진 원인이지만, 대규모 언어 모델 (LLMs)에서는 여전히 충분히 연구되지 않았습니다. 우리는 LLM의 조기 결론을 '불확실성 하에서의 부적절한 확신 (inappropriate commitment under uncertainty)'으로 정의합니다. 즉, 명확한 확인 (clarification), 기권 (abstention), 상급자 보고 (escalation) 또는 거부 (refusal)가 더 안전한 대응임에도 불구하고 답변, 권고 또는 임상적 지침을 제공하는 것을 의미합니다. 우리는 구조화된 의료 작업과 개방형 의료 작업을 통해 다섯 가지 Frontier LLM을 평가했습니다. 정답 선택지가 제거된 MedQA (n = 500) 및 AfriMed-QA (n = 490) 질문에서 모델들은 여전히 높은 비율로 답변을 선택했으며, 기준 오작동률 (false-action rates)은 각각 55-81% 및 53-82%였습니다. 개방형 평가에서는 861개의 HealthBench 질문 중 평균 30%, 그리고 의사가 작성한 191개의 적대적 질의 (adversarial queries) 중 78%에서 모델들이 부적절한 답변을 내놓았습니다. 안전 지향적 프롬프팅 (Safety-oriented prompting)은 모델 전반에 걸쳐 조기 결론을 감소시켰으나, 잔여 실패 (residual failure)가 지속되었습니다. 이는 의료용 LLM이 언제 답변하지 말아야 하는지를 알고 있는지 평가할 필요가 있음을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기