arXiv논문2026. 06. 04. 13:17

SemBlock: Diffusion LLM을 위한 의미적 경계 기반 동적 블록

요약

Diffusion LLM의 효율성을 높이기 위해 의미적 경계를 기반으로 동적 블록을 생성하는 SemBlock 프레임워크를 제안합니다. 고정된 블록 대신 의미적 경계를 예측하여 디코딩 성능을 최적화하며, 다양한 벤치마크에서 기존 방식보다 우수한 성능을 입증했습니다.

핵심 포인트

의미적 경계 기반의 동적 블록 디코딩 프레임워크 SemBlock 제안
LLaDA 은닉 상태를 활용한 경량 경계 예측기 학습
자연어, 수학, 코드를 포함한 SemBound 데이터셋 구축
GSM8K, HumanEval 등 주요 벤치마크에서 성능 향상 확인

확산 언어 모델 (Diffusion Language Models, DLMs)은 반복적인 노이즈 제거 (denoising) 과정을 통해 텍스트를 생성하며, 블록 단위 디코딩 (blockwise decoding)은 로컬 블록 단위로 토큰을 확정함으로써 실용성을 향상시킵니다. 그러나 기존의 블록 단위 방식은 일반적으로 고정된 블록 크기나 구분자 기반의 런타임 신호에 의존하며, 이는 반드시 의미적 경계 (semantic boundaries)와 일치하지는 않습니다. 본 논문에서는 Diffusion LLM을 위한 의미적 경계 기반 동적 블록 디코딩 프레임워크인 SemBlock을 제안합니다. SemBlock은 동적 블록 구축을 의미적 경계 예측으로 공식화하며, 동결된 (frozen) LLaDA 은닉 상태 (hidden states) 상에서 경량 예측기 (lightweight predictors)를 학습시킵니다. 감독 (supervision)을 제공하기 위해, 우리는 자연어, 수학, 코드 작업 전반에 걸쳐 담화 단위 (discourse units), 추론 단계 (reasoning steps), 구현 범위 (implementation spans)로부터 경계 레이블을 도출하는 의미적 경계 데이터셋인 SemBound를 구축합니다. 추론 과정에서 SemBlock은 예측된 경계 확률을 사용하여 각 동적 블록의 종료 위치를 선택합니다. GSM8K, IFEval, MATH, HumanEval에 대한 실험 결과, SemBlock은 고정 블록 디코딩 (fixed-block decoding) 및 AdaBlock보다 일관되게 향상된 성능을 보여줍니다. 우리의 코드는 공개되어 있습니다: https://github.com/TH-AI-Lab-PKU/SemBlock.

AI 자동 생성 콘텐츠

원문 바로가기

SemBlock: Diffusion LLM을 위한 의미적 경계 기반 동적 블록

요약

핵심 포인트

댓글