arXiv논문2026. 06. 02. 10:14

EPIC: 확산 언어 모델(Diffusion Language Models)의 CFG 제약 조건 하에서의 효율적이고 병렬적인 추론

요약

확산 언어 모델(Diffusion Language Models)의 CFG 제약 조건 하에서의 추론 속도 저하 문제를 해결하기 위한 EPIC 프레임워크를 제안합니다. 어휘 분석 메모이제이션과 Earley 스타일 파싱을 통해 병렬 디코딩의 장점을 유지하며 추론 시간을 대폭 단축했습니다.

핵심 포인트

CFG 제약 조건 적용 시 발생하는 병렬 디코딩 오버헤드 해결
어휘 분석 메모이제이션 및 Earley 스타일 파싱 도입
기존 방식 대비 추론 시간 최대 67.5% 단축
추가 오버헤드를 최대 90.5%까지 감소

언어 모델의 출력을 제어하는 것은 구조적 유효성(structural validity), 신뢰성(reliability), 그리고 다운스트림 사용성(downstream usability)을 보장하기 위해 필수적이며, 확산 언어 모델(diffusion language models) 또한 예외는 아닙니다. 최근 확산 언어 모델 디코딩(decoding)의 발전은 출력 제어를 일반적인 제약 조건을 넘어 문맥 자유 문법 (CFG, context-free grammar) 제약 조건까지 확장했습니다. 그러나 기존 방법들은 제약이 없는 디코딩보다 최대 4배까지 느릴 수 있습니다. 더 중요한 점은, 이러한 방법들이 자기회귀 모델(autoregressive models) 대비 확산 언어 모델이 가진 핵심 장점 중 하나인 병렬 디코딩(parallel decoding)을 실질적으로 저하시킨다는 것입니다. 이러한 속도 저하는 순차적인 유효성 검사(sequential validity checking)가 병렬 생성 과정에서 상당한 오버헤드(overhead)를 유발하기 때문에 발생합니다. 우리는 이러한 한계를 해결하는 효율적인 CFG 제약 디코딩 프레임워크인 EPIC을 제안합니다. 우리의 방법은 어휘 분석 메모이제이션(lexing memoization), 결정적 오토마타(deterministic automata) 대신 Earley 스타일 파싱(Earley-style parsing)을 사용한 검증, 그리고 병렬 커밋(parallel commit)을 위한 완화된 호환 가능한 부분 집합 선택(relaxed compatible subset selection)을 결합하여 디코딩 효율성을 향상시킵니다. 이는 반복적인 어휘 분석 및 검증 오버헤드를 줄이는 동시에, 여러 개의 호환 가능한 토큰(token)이 함께 커밋될 수 있도록 합니다. 4개의 모델을 사용하여 3개의 벤치마크에서 수행한 실험 결과, 우리의 방법은 기존의 CFG 제약 디코딩 방법과 비교하여 추론 시간을 최대 67.5% 단축하고 추가 오버헤드를 최대 90.5%까지 감소시킴을 보여주었습니다. 우리의 구현체는 https://github.com/hyundong98/EPIC-Decoding.git 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

EPIC: 확산 언어 모델(Diffusion Language Models)의 CFG 제약 조건 하에서의 효율적이고 병렬적인 추론

요약

핵심 포인트

댓글