arXiv논문2026. 06. 04. 13:17

SAID: 스캐폴드 인식 반복 디코딩 (Scaffold-Aware Iterative Decoding)을 통한 확산 기반 언어 모델

요약

확산 기반 언어 모델(DLLM)의 높은 추론 비용 문제를 해결하기 위해 스캐폴드 인식 반복 디코딩(SAID) 프레임워크를 제안합니다. 스캐폴드 토큰에 계산량을 우선 할당하여 구조를 잡은 뒤 세부 토큰을 완성함으로써, 성능 저하 없이 추론 속도를 최대 9.1배 가속화합니다.

핵심 포인트

SAID 프레임워크를 통한 DLLM 추론 속도 최대 9.1배 향상
스캐폴드 토큰 중심의 계산량 재할당으로 효율적 생성 구현
신뢰도 계층적 레이어 생성(CHLG) 기술 도입
LLaDA 모델 기반 수학, 코딩, 지식 벤치마크 성능 검증

확산 대규모 언어 모델 (Diffusion large language models, DLLMs)은 양방향 문맥 (bidirectional context)을 사용하여 손상된 토큰 시퀀스를 반복적으로 노이즈 제거 (denoising)함으로써 비자기회귀적 생성 (non-autoregressive generation)을 가능하게 합니다. 여러 위치를 병렬로 업데이트할 수 있는 능력에도 불구하고, 고품질 생성을 위해 필요한 많은 노이즈 제거 단계로 인해 추론 (inference) 비용은 여전히 높습니다. 우리는 토큰 간의 계산량을 재할당하여 DLLM을 가속화하는 스캐폴드 인식 반복 디코딩 (Scaffold-Aware Iterative Decoding) 프레임워크인 SAID를 제안합니다. SAID는 먼저 스캐폴드 토큰 (scaffold tokens)에 노이즈 제거 계산을 할당하여 거친 의미 구조 (coarse semantic structure)를 구축한 다음, 예측 가능한 세부 토큰 (detail tokens)들을 더 적은 단계로 완성합니다. 나아가 우리는 SAID를 블록 단위 확산 디코딩 (block-wise diffusion decoding)에 맞게 조정하고, 신뢰도가 낮은 토큰에만 추가 단계를 할당하는 신뢰도 계층적 레이어 생성 (Confidence-Hierarchical Layered Generation, CHLG)을 도입합니다. 수학, 코딩 및 지식 벤치마크 전반에 걸친 LLaDA-8B 및 LLaDA 1.5에 대한 실험 결과, SAID는 경쟁력 있는 성능을 유지하면서도 최대 9.1배의 속도 향상을 통해 DLLM 추론을 크게 가속화함을 보여줍니다. 우리의 코드는 다음에서 공개적으로 사용할 수 있습니다: https://github.com/TH-AI-Lab-PKU/SAID.

AI 자동 생성 콘텐츠

원문 바로가기

SAID: 스캐폴드 인식 반복 디코딩 (Scaffold-Aware Iterative Decoding)을 통한 확산 기반 언어 모델

요약

핵심 포인트

댓글