표류에서 일관성으로: LLM 내 신념의 안정화
요약
LLM의 예측 신념이 일관성을 유지하지 못하고 표류하는 현상을 분석하고, 이를 해결하기 위한 연구를 제시합니다. PPR 기법을 통해 신념의 안정화 과정을 관찰하고, 시드 답변 프롬프팅과 자기 일관성 손실을 통해 예측 일관성을 향상시킵니다.
핵심 포인트
- LLM의 예측 신념이 마팅게일 성질을 위반하며 표류하는 현상 발견
- 프롬프트 기반 예측 재샘플링(PPR)을 통한 신념 역학 연구
- 신념 안정화를 위한 시드 답변 프롬프팅 전략 제안
- 자기 일관성 손실(self-consistency loss)을 통한 미세 조정 방법론 제시
- 정확도 유지와 동시에 예측 일관성 및 신념 안정성 향상 확인
대규모 언어 모델 (LLMs)은 종종 암묵적 베이지안 추론 (Bayesian inference)을 수행한다고 가설이 세워지지만, 핵심적인 일관성 조건인 예측 신념의 마팅게일 성질 (martingale property)이 통제된 합성 인컨텍스트 학습 (in-context learning) 환경에서는 실패하는 것으로 나타났습니다. 우리는 보다 전형적인 사용 환경인 일반적인 객관식 질문 답변 (multiple-choice question answering)에서 이 문제를 재검토합니다. 이산적인 답변 공간 (discrete answer space)을 활용하여, 우리는 정확한 예측 분포 (predictive distributions)를 계산하고 자기회귀적 답변 재샘플링 (autoregressive answer resampling)에 의해 유도되는 신념 역학 (belief dynamics)을 연구합니다. 우리는 LLM이 동일한 질문에 대해 일련의 답변을 생성하는 프롬프트 기반 예측 재샘플링 (prompted predictive resampling, PPR)을 도입합니다. 경험적으로, PPR은 초기 단계의 신념 표류 (belief drift)를 드러내며, 이는 마팅게일 위반을 나타냅니다. 그러나 충분한 재샘플링 단계를 거친 후, 신념 과정은 스스로 안정화되어 일관된 예측 분포로 수렴합니다. 이러한 관찰을 바탕으로, 우리는 (i) 안정화를 가속화하기 위한 시드 답변 프롬프팅 (seed-answer prompting) 전략과, (ii) 미세 조정 (fine-tuning)을 통해 초기 단계의 표류를 모델로 분할 상환(amortize)하는 자기 일관성 손실 (self-consistency loss)을 제안합니다. 여러 객관식 QA 벤치마크에 대한 실험 결과, 우리의 방법론은 정확도를 희생하지 않으면서 신념 표류를 실질적으로 줄이고 예측 일관성 (predictive coherence)을 향상시킴을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기