Dev.to헤드라인2026. 05. 06. 18:31

LLM은 우리가 무엇을 묻는지가 아니라 어떻게 묻는지를 듣고 있다

요약

최근 연구에 따르면, 대형 언어 모델(LLM)은 질문의 내용 자체보다 '어떻게' 질문하는 방식에 영향을 받는 경향을 보이며, 특히 두 가지 상충하는 편향을 나타냅니다. 첫째는 이전에 생성한 답변에 대한 과도한 확신(선택 지지 편향)이고, 둘째는 반론에 대해 지나치게 민감하게 반응하여 증거보다 더 자주 의견을 바꾸는 경향입니다. 이러한 편향은 모델이 단순히 아첨하는 것과는 다른 비대칭적인 방식으로 작동함을 보여줍니다.

핵심 포인트

LLM의 확신 처리에는 '선택 지지 편향(Confirmation Bias)'과 '반론에 대한 과민성'이라는 두 가지 상충되는 편향이 존재한다.
모델은 이전에 생성한 답변을 스스로 더 신뢰하는 경향(자기 출력 선호)을 보인다.
도전받았을 때, LLM은 베이지안 이상적 관찰자보다 반대 의견을 과대평가하여 지나치게 자주 의견을 바꾼다.
이러한 편향은 동의하는 의견에 대한 과대평가와는 구별되는 비대칭적인 행동 패턴이다.

대형 언어 모델의 확신 역설 — 외과의사와 호텔 컨시어지가 이미 알고 있던 것

2026년 4월 Nature Machine Intelligence에 발표된 논문(Kumaran et al., Google DeepMind/UCL)이 LLM의 확신 처리에서 두 가지 상충하는 편향을 밝혔습니다.

첫째는 선택 지지 편향: LLM이 이전에 답변을 했다는 이유만으로 더 확신합니다. 메모리가 없는 무상태 모델에서 자기 출력을 좋아하는 메커니즘이 없는데도 측정 가능한 행동입니다.

둘째는 반론에 대한 과민성: 도전받으면 베이지안 이상적 관찰자보다 2~3배 더 반대 의견을 과대평가하여, 증거가 보장하는 것보다 훨씬 자주 의견을 바꿉니다.

불편한 점: 이 편향은 비대칭적입니다. 모델은 동의하는 의견을 비교적으로 과대평가하지 않습니다. 이것이 단순한 아첨과 구별되는 행동입니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM은 우리가 무엇을 묻는지가 아니라 어떻게 묻는지를 듣고 있다

요약

핵심 포인트

댓글