arXiv논문2026. 06. 10. 11:37

LLM 의사결정 과정에서의 피상적 신념 (Superficial Beliefs)

요약

LLM이 의사결정을 내릴 때 사용하는 근거가 실제 결정 구조를 완벽히 반영하지 못한다는 '피상적 신념' 현상을 분석합니다. 모델의 행동은 체계적인 속성에 기반하지만, 모델이 스스로 내놓는 언어적 설명은 실제 결정 동인을 불완전하게 추적함을 밝힙니다.

핵심 포인트

LLM의 결정은 무작위가 아닌 체계적인 속성에 기반함
모델의 자기 보고(self-reports)는 실제 결정 동인을 불완전하게 설명함
결정 구조와 언어적 설명 사이의 불일치를 '피상적 신념'으로 정의
프롬프트 순서 및 샘플링 변화에도 이러한 패턴이 지속됨

우리는 대규모 언어 모델 (LLMs)이 두 가지 선택지 사이에서 결정할 때 단순히 근거 (rationales)를 모방하는 것인지, 아니면 그들의 선택이 체계적인 기저 의사결정 구조 (decision structure)를 반영하는지 질문합니다. 모델이 등급이 매겨진 속성 (graded attributes)에 의해 정의된 프로필 사이에서 선택하는 합성 이진 결정 설정 (synthetic binary decision settings)을 사용하여, 우리는 모델이 가장 중요하다고 말하는 속성과 이전 결정에 맞춰진 행동 모델 (behavioural model) 하에서 그 선택을 가장 잘 설명하는 속성을 비교합니다. 행동 모델은 홀드아웃 선택 (held-out choices)을 잘 예측하며, 이는 모델의 행동이 무작위적이기보다는 가시적인 속성들과 체계적으로 연관되어 있음을 보여줍니다. 그러나 직접적인 자기 보고 (self-reports)와 별도의 점수 기반 판정 (score-based judge)은 행동학적으로 추론된 동인 (driver)을 부분적으로만 복구합니다. 결과적인 모습은 임의적인 행동도 아니고 완전히 명확하게 표현된 신념도 아닙니다. 즉, 출력값은 예측을 뒷받침할 수 있을 만큼 충분히 구조화되어 있지만, 명시적인 이유는 복구된 동인을 불완전하게만 추적합니다. 이러한 질적 패턴은 프롬프트 순서 (prompt-order) 및 샘플링 섭동 (sampling perturbations), 대안적 행동 모델, 표적 차단 분석 (targeted occlusion analyses), 그리고 구조적으로 다양한 결정 설정 전반에 걸쳐 지속됩니다. 우리는 이를 LLM 의사결정에서의 "피상적 신념 (superficial belief)"에 대한 증거로 해석합니다. 즉, 모델은 속성에 대한 확률적 국소 우선순위 (probabilistic local priorities)에 의해 안내되는 것처럼 행동하지만, 자신의 결정을 이끄는 속성에 대해서는 제한적인 언어적 접근 권한 (verbal access)만을 가지고 있다는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 의사결정 과정에서의 피상적 신념 (Superficial Beliefs)

요약

핵심 포인트

댓글