본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 12:26

병렬도 아니고 순차적도 아니다: DiffusionGemma가 실제로 토큰을 확정(Commit)하는 방식

요약

DiffusionGemma 26B 모델의 토큰 확정(commit) 메커니즘을 분석하여, 이 모델이 완전한 병렬 방식이 아닌 좌측-우측 확정 편향을 따름을 밝혀냈습니다. 연구 결과, 모델의 블록 크기는 아키텍처 특성이 아닌 측정 입도에 따라 결정되는 산물임을 증명했습니다.

핵심 포인트

  • DiffusionGemma는 병렬적이지도, 블록 자기회귀적이지도 않은 독특한 디코딩 패턴을 보임
  • 모델은 부분적인 좌측-우측(left-to-right) 확정 편향을 따름
  • 블록 크기는 아키텍처의 고유 특성이 아닌 측정 도구의 입도에 따라 달라짐
  • 구조화된 JSON 생성 시 토큰은 임의의 순서로 확정됨
  • 정확한 디코딩 순서 측정을 위한 새로운 방법론적 프레임워크 제시

오픈 확산 언어 모델(Open diffusion language models)은 병렬적이고 비자기회귀적(non-autoregressive)인 디코더로 마케팅되지만, 배포된 체크포인트가 실제로 토큰을 확정(commit)하는 순서는 거의 측정되지 않습니다. 우리는 Gemma 4를 기반으로 구축된 마스크된 이산 확산 전문가 혼합(masked discrete-diffusion mixture-of-experts) 모델인 DiffusionGemma 26B를 사용하여, 샘플러의 수락(accept) 단계를 후킹(hooking)함으로써 어떤 캔버스 위치가 언제, 어떤 신뢰도로 확정되는지를 기록했습니다. 686개의 프롬프트와 6개의 레짐(regime)으로 구성된 조사 세트를 통해 확인한 결과, 이 모델의 디코딩은 병렬적이지도 않고 블록 자기회귀적(block-autoregressive)이지도 않습니다. 대신 모델은 부분적인 좌측-우측(left-to-right) 확정 편향을 따르며, 그 명시적인 강도는 관찰하는 입도(granularity)에 거의 전적으로 의존합니다. 토큰 단위의 순서는 약하지만 분석의 입도가 거칠어질수록 부드럽게 강화되므로, 모델의 "블록 크기(block size)"는 아키텍처의 특성이라기보다 측정 도구의 산물임이 드러났습니다. 모델은 커다란 동시 배치(simultaneous batches) 단위로 확정하며, 배치 내의 많은 순서는 단순히 관찰되지 않은 것이 아니라 실제로 정의되지 않은 상태로 남겨둡니다. 이러한 동작은 레짐(regime)에 따라 달라집니다. 구조화된 JSON은 본질적으로 임의의 순서로 확정되며, 특정 위치의 확정 신뢰도(commit confidence)는 수학적 추론의 정확성은 추적하지만 사실적 회상(factual recall)에 대한 신호는 전달하지 않습니다. 확정 과정은 공격적이며, 스텝 예산(step budget) 내에서 짧은 후기 폭발(late burst)과 함께 완료되는 반면, 작업 정확도는 자기회귀(autoregressive) 모델인 형제 모델 Gemma-4와 일치합니다. 이러한 발견 외에 우리의 핵심 기여는 방법론적인 것입니다. 디코딩 순서를 정직하게 측정하려면 후행 EOS 패딩(trailing-EOS padding), 레짐 내 혼란 변수(within-regime confounding), 확정의 비단조성(commit non-monotonicity), 블록 크기 민감도(block-size sensitivity), 그리고 대규모 확정 배치 동점(large commit-batch ties)을 처리해야 하며, 이를 처리하지 않으면 실제로는 존재하지 않는 디코딩 순서 결과를 만들어낼 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0