VoidPadding: [EOS]가 의미적 종료에 집중할 수 있도록 Masked Diffusion Language Models에서 패딩 처리를
요약
Masked Diffusion Language Models(MDLM)에서 [EOS] 토큰이 패딩과 종료 역할을 동시에 수행하며 발생하는 문제를 해결하기 위해 VoidPadding 기법을 제안합니다. 패딩 전용 [VOID] 토큰을 도입하여 [EOS]의 역할을 분리함으로써 모델의 성능과 추론 효율성을 크게 개선했습니다.
핵심 포인트
- [EOS] 토큰의 이중 역할(패딩 및 종료)로 인한 오버플로 문제 해결
- [VOID] 토큰 도입을 통한 패딩과 의미적 종료의 역할 분리
- Dream-7B-Instruct 적용 시 수학 및 코드 벤치마크 점수 대폭 향상
- 디코딩 NFE(Number of Function Evaluations) 평균 55.7% 감소
MDLM(Masked Diffusion Language Models)은 미리 할당된 마스크된 응답 캔버스(masked response canvas)를 디노이징(denoising)함으로써 텍스트를 생성하며, 이는 응답 길이 모델링(response-length modeling)을 지시어 튜닝(instruction tuning)의 핵심 요소로 만듭니다. 기존의 MDLMs는 지시어 튜닝 중에 패딩(padding)을 위해 반복적인 \texttt{[EOS]} 토큰을 사용하는 자기회귀적(autoregressive) 관습을 그대로 계승하는 경우가 많으며, 이로 인해 \texttt{[EOS]}가 의미적 종료어(semantic terminator)와 패딩 토큰(padding token)이라는 이중적인 역할을 수행하게 됩니다. 우리는 이러한 이중적 역할이 대규모 블록 디코딩(large-block decoding) 상황에서 \texttt{[EOS]} 오버플로(overflow)를 일으키는 근본 원인임을 보여줍니다. 이러한 역할들을 분리하기 위해, 우리는 패딩을 위한 \texttt{[VOID]}를 도입하고 \texttt{[EOS]}를 종료를 위해 예약하는 VoidPadding을 제안합니다. 추론(inference) 과정에서 학습된 \texttt{[EOS]} 신호는 조기 종료(early stopping)를 가능하게 하며, 학습된 \texttt{[VOID]} 신호는 적응형 응답 캔버스 확장(adaptive response canvas expansion)을 안내합니다. Dream-7B-Instruct에서 VoidPadding은 수학적 추론 및 코드 생성 벤치마크 전반에 걸쳐 블록 크기 평균 4개 작업 평균 점수를 기존 모델 대비 $+17.84$ 포인트, RainbowPadding 대비 $+6.95$ 포인트 향상시키는 동시에, 디코딩 NFE(Number of Function Evaluations)를 평균 $55.7%$ 감소시켰습니다. 코드는 https://github.com/Haru-LCY/VoidPadding 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기