본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 10:13

순서 불가지론적 언어 모델에서의 디코딩: 연쇄 법칙 편차 및 균등 확산

요약

순서 불가지론적 언어 모델(OALM)에서 디코딩 시 발생하는 연쇄 법칙 편차를 분석합니다. LLaDA-2.1 연구를 통해 공개 순서에 따른 로그 가능도 변화와 신뢰도 확산의 중요성을 밝히고, 새로운 진단 방법을 제안합니다.

핵심 포인트

  • OALM의 조건부 확률은 결합 분포의 정확한 인수분해가 아님
  • 공개 순서 변화가 타겟 로그 가능도에 유의미한 차이를 유발
  • 신뢰도 추적 기반의 균등 확산 정리를 통한 진단 방법 제안
  • 신뢰도 분산이 다운스트림 작업의 정확도와 밀접하게 연관됨

이산 확산 언어 모델 (discrete diffusion language models, dLLMs)을 포함하는 순서 불가지론적 언어 모델 (Order-agnostic language models, OALMs)은 임의의 조건부 집합 (conditioning sets) 하에서 마스킹된 토큰을 예측하도록 학습되며, 이를 통해 추론 시 임의의 공개 순서 (reveal orders)에 따라 시퀀스를 생성하거나 점수를 매길 수 있습니다. LLaDA-2.1에서 우리는 세 가지 발견을 보고합니다. 첫째, 학습된 조건부 확률 (conditionals)은 일관된 결합 분포 (joint distribution)의 정확한 인수분해 (factorizations)가 아닙니다. 공개 순서만 변경해도 타겟 로그 가능도 (target log-likelihood)가 토큰당 최대 0.49 nats까지 변화하며, 따라서 가능도 (likelihood)만으로는 콘텐츠의 난이도와 경로 의존적 아티팩트 (path-dependent artifacts)가 혼재됩니다. 둘째, 신뢰도 우선 (confidence-first, CF) 디코딩은 순서 불가지론적이지만, 콘텐츠 토큰에 대한 공개 순서는 왼쪽에서 오른쪽으로 (left-to-right, L2R) 방식과 유사합니다. 셋째, 우리는 신뢰도 추적 (confidence trace)의 형태에 기반한 보완적인 진단 방법을 제안합니다. 균등 확산 정리 (uniform-spreading theorem)에 따르면, 총 가능도가 고정되었을 때 단계별 신뢰도가 균등하게 확산될 때 타겟 복구 가능성 (target recoverability)이 극대화됩니다. 이로 인해 발생하는 편차는 디코딩 경로를 비교하기 위한 진단 도구로서 $\mathrm{Var}(\log q_t)$를 사용하도록 동기를 부여합니다. C4 및 4개의 다운스트림 벤치마크 전반에 걸쳐, 낮은 분산 (low variance)은 구조화된 경로와 무작위 순서를 구분하며, 분산은 다운스트림 정확도와 일관되게 연관되어 있습니다. 이러한 결과는 OALM 디코딩 경로를 비교할 때 평균 신뢰도 (mean confidence)와 신뢰도 분산 (confidence variance)을 함께 보고할 것을 뒷받침합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0