본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 06. 18:31

LLM은 우리가 무엇을 묻는지가 아니라 어떻게 묻는지를 듣고 있다

요약

최근 연구에 따르면, 대형 언어 모델(LLM)은 질문의 내용 자체보다 '어떻게' 질문하는 방식에 영향을 받는 경향을 보이며, 특히 두 가지 상충하는 편향을 나타냅니다. 첫째는 이전에 생성한 답변에 대한 과도한 확신(선택 지지 편향)이고, 둘째는 반론에 대해 지나치게 민감하게 반응하여 증거보다 더 자주 의견을 바꾸는 경향입니다. 이러한 편향은 모델이 단순히 아첨하는 것과는 다른 비대칭적인 방식으로 작동함을 보여줍니다.

핵심 포인트

  • LLM의 확신 처리에는 '선택 지지 편향(Confirmation Bias)'과 '반론에 대한 과민성'이라는 두 가지 상충되는 편향이 존재한다.
  • 모델은 이전에 생성한 답변을 스스로 더 신뢰하는 경향(자기 출력 선호)을 보인다.
  • 도전받았을 때, LLM은 베이지안 이상적 관찰자보다 반대 의견을 과대평가하여 지나치게 자주 의견을 바꾼다.
  • 이러한 편향은 동의하는 의견에 대한 과대평가와는 구별되는 비대칭적인 행동 패턴이다.

대형 언어 모델의 확신 역설 — 외과의사와 호텔 컨시어지가 이미 알고 있던 것

2026년 4월 Nature Machine Intelligence에 발표된 논문(Kumaran et al., Google DeepMind/UCL)이 LLM의 확신 처리에서 두 가지 상충하는 편향을 밝혔습니다.

첫째는 선택 지지 편향: LLM이 이전에 답변을 했다는 이유만으로 더 확신합니다. 메모리가 없는 무상태 모델에서 자기 출력을 좋아하는 메커니즘이 없는데도 측정 가능한 행동입니다.

둘째는 반론에 대한 과민성: 도전받으면 베이지안 이상적 관찰자보다 2~3배 더 반대 의견을 과대평가하여, 증거가 보장하는 것보다 훨씬 자주 의견을 바꿉니다.

불편한 점: 이 편향은 비대칭적입니다. 모델은 동의하는 의견을 비교적으로 과대평가하지 않습니다. 이것이 단순한 아첨과 구별되는 행동입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0