arXiv논문2026. 06. 02. 10:13

순서 불가지론적 언어 모델에서의 디코딩: 연쇄 법칙 편차 및 균등 확산

요약

순서 불가지론적 언어 모델(OALM)에서 디코딩 시 발생하는 연쇄 법칙 편차를 분석합니다. LLaDA-2.1 연구를 통해 공개 순서에 따른 로그 가능도 변화와 신뢰도 확산의 중요성을 밝히고, 새로운 진단 방법을 제안합니다.

핵심 포인트

OALM의 조건부 확률은 결합 분포의 정확한 인수분해가 아님
공개 순서 변화가 타겟 로그 가능도에 유의미한 차이를 유발
신뢰도 추적 기반의 균등 확산 정리를 통한 진단 방법 제안
신뢰도 분산이 다운스트림 작업의 정확도와 밀접하게 연관됨

이산 확산 언어 모델 (discrete diffusion language models, dLLMs)을 포함하는 순서 불가지론적 언어 모델 (Order-agnostic language models, OALMs)은 임의의 조건부 집합 (conditioning sets) 하에서 마스킹된 토큰을 예측하도록 학습되며, 이를 통해 추론 시 임의의 공개 순서 (reveal orders)에 따라 시퀀스를 생성하거나 점수를 매길 수 있습니다. LLaDA-2.1에서 우리는 세 가지 발견을 보고합니다. 첫째, 학습된 조건부 확률 (conditionals)은 일관된 결합 분포 (joint distribution)의 정확한 인수분해 (factorizations)가 아닙니다. 공개 순서만 변경해도 타겟 로그 가능도 (target log-likelihood)가 토큰당 최대 0.49 nats까지 변화하며, 따라서 가능도 (likelihood)만으로는 콘텐츠의 난이도와 경로 의존적 아티팩트 (path-dependent artifacts)가 혼재됩니다. 둘째, 신뢰도 우선 (confidence-first, CF) 디코딩은 순서 불가지론적이지만, 콘텐츠 토큰에 대한 공개 순서는 왼쪽에서 오른쪽으로 (left-to-right, L2R) 방식과 유사합니다. 셋째, 우리는 신뢰도 추적 (confidence trace)의 형태에 기반한 보완적인 진단 방법을 제안합니다. 균등 확산 정리 (uniform-spreading theorem)에 따르면, 총 가능도가 고정되었을 때 단계별 신뢰도가 균등하게 확산될 때 타겟 복구 가능성 (target recoverability)이 극대화됩니다. 이로 인해 발생하는 편차는 디코딩 경로를 비교하기 위한 진단 도구로서 $\mathrm{Var}(\log q_t)$를 사용하도록 동기를 부여합니다. C4 및 4개의 다운스트림 벤치마크 전반에 걸쳐, 낮은 분산 (low variance)은 구조화된 경로와 무작위 순서를 구분하며, 분산은 다운스트림 정확도와 일관되게 연관되어 있습니다. 이러한 결과는 OALM 디코딩 경로를 비교할 때 평균 신뢰도 (mean confidence)와 신뢰도 분산 (confidence variance)을 함께 보고할 것을 뒷받침합니다.

AI 자동 생성 콘텐츠

원문 바로가기

순서 불가지론적 언어 모델에서의 디코딩: 연쇄 법칙 편차 및 균등 확산

요약

핵심 포인트

댓글