arXiv논문2026. 06. 23. 12:14

우도 함정 탈출하기: 대규모 언어 모델(LLM) 디코딩을 위한 분산 보정 변조 (Variance-Calibrated Modulation)

요약

LLM의 반복적 퇴보와 단조로움을 유발하는 '우도 함정'을 해결하기 위한 새로운 디코딩 기법인 VCM을 제안합니다. VCM은 별도의 훈련 없이 PMI와 적응형 자기 디바이아싱을 통해 확률 분포를 동적으로 재형성하여 생성 품질을 높입니다.

핵심 포인트

우도 함정(Likelihood Trap) 문제를 해결하는 훈련 불필요 디코딩 방식 제안
PMI를 활용해 불용어를 억제하고 문맥적 토큰의 확률을 높임
실시간 로짓 표준 편차를 이용한 스케일 불변 페널티 적용
다양성, 일관성 및 높은 디코딩 온도에서의 추론 정확도 향상

개방형 생성(open-ended generation)에서 대규모 언어 모델(LLM)은 반복적인 퇴보와 어휘의 단조로움으로 특징지어지는 "우도 함정(likelihood trap)"에 자주 빠지며, 이는 기계가 생성한 텍스트와 인간이 작성한 텍스트 사이의 불일치를 야기합니다. 사후적 꼬리 절단(post-hoc tail truncation, 예: Top-$p$, Min-$p$)은 신뢰할 수 없는 꼬리 부분에서의 샘플링은 피할 수 있지만, 보정되지 않은 헤드(head) 부분에서 과도하게 샘플링하여 생성 결과가 인간의 어휘 선호도와 어긋날 수 있습니다. 마찬가지로 고정된 스칼라 반복 페널티(fixed scalar repetition penalties)는 추론 단계 전반에 걸친 로짓 스케일(logit scale)의 변화를 무시하여 잠재적으로 의미적 일관성(semantic coherence)을 해칠 수 있습니다. 이러한 두 가지 한계를 해결하기 위해, 우리는 절단(truncation) 전 단계에서 두 가지 동적 메커니즘을 통해 확률 분포를 재형성하는 훈련이 필요 없는 디코딩 전 개입 방식인 분산 보정 변조(Variance-Calibrated Modulation, VCM)를 제안합니다: (1) PMI를 통한 문맥적 서치라이트(Contextual Searchlight via PMI)는 전역적 불용어(stopwords)를 억제하는 동시에 문맥에 의해 유도된 토큰을 높여주며, (2) 적응형 자기 디바이아싱(Adaptive Self-Debiasing)은 실시간 로짓 표준 편차(logit standard deviation)를 사용하여 스케일 불변 페널티(scale-invariant penalization)를 적용합니다. 개방형 생성, 사실적 질의응답(factual QA), 수학적 추론 전반에 걸쳐 VCM은 우도 함정을 일관되게 완화합니다. 계산 오버헤드가 무시할 수 있는 수준인 VCM은 기존의 디코딩 전략과 통합되어 다양성, 일관성, 그리고 특히 더 높은 디코딩 온도(decoding temperatures)에서 추론 정확도를 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

우도 함정 탈출하기: 대규모 언어 모델(LLM) 디코딩을 위한 분산 보정 변조 (Variance-Calibrated Modulation)

요약

핵심 포인트

댓글