Fast Byte Latent Transformer
요약
본 논문은 기존 바이트 레벨 언어 모델(LM)이 느린 자동회귀 생성 속도 때문에 활용도가 제한적이라는 문제를 해결하기 위한 Byte Latent Transformer (BLT)의 개선 방안을 제시합니다. 연구진은 보조 블록 단위 확산 목적 함수를 추가하여 병렬 디코딩이 가능한 BLT Diffusion (BLT-D) 모델을 제안했습니다. 또한, 사변적 디코딩(speculative decoding)에서 영감을 받은 두 가지 확장 방식인 BLT Self-speculation (BLT-S)과 BLT Diffusion+Verification (BLT-DV)를 통해 속도와 품질을 최적화하여, 기존 BLT 대비 메모리 대역폭 비용을 50% 이상 절감할 수 있음을 입증했습니다.
핵심 포인트
- 기존 바이트 레벨 LM의 주요 병목 현상은 느린 자동회귀(autoregressive) 생성 속도입니다.
- BLT Diffusion (BLT-D)는 확산 목적 함수를 활용하여 디코딩 단계마다 여러 바이트를 병렬로 생성할 수 있게 하여 속도를 크게 개선했습니다.
- BLT Self-speculation (BLT-S)은 로컬 디코더가 초안을 작성하고 전체 모델이 검증하는 방식으로 효율성을 높였습니다.
- BLT Diffusion+Verification (BLT-DV)는 확산 기반 생성 후 자동회귀적 검증 단계를 추가하여 품질과 속도를 모두 보강했습니다.
- 제안된 모든 방법은 기존 BLT 대비 메모리 대역폭 비용을 50% 이상 절감할 수 있습니다.
최근의 바이트 레벨 언어 모델(LM)은 서브워드 어휘집에 의존하지 않으면서 토큰 레벨 모델과 비슷한 성능을 보이지만, 느린 바이트별 자동회귀 생성으로 인해 활용도가 제한적입니다. 우리는 새로운 훈련 및 생성 기법을 통해 Byte Latent Transformer (BLT)의 이러한 병목 현상을 해결합니다. 첫째, 표준 다음 바이트 예측 손실과 함께 보조 블록 단위 확산 목적 함수(auxiliary block-wise diffusion objective)로 훈련된 새로운 모델이자 가장 빠른 BLT 변형인 BLT Diffusion (BLT-D)를 소개합니다. 이를 통해 디코딩 단계마다 여러 바이트를 병렬로 생성하는 추론 절차가 가능해져, 시퀀스를 생성하는 데 필요한 순전파(forward pass) 횟수를 크게 줄일 수 있습니다. 둘째, 사변적 디코딩(speculative decoding)에서 영감을 받아 속도를 일부 희생하고 더 높은 생성 품질을 얻는 두 가지 확장 방안을 제안합니다: BLT Self-speculation (BLT-S)은 BLT의 로컬 디코더가 정상적인 패치 경계를 넘어 계속해서 바이트를 생성하여 초안(draft)을 작성하고, 이 초안이 단일 전체 모델 순전파로 검증되는 방식입니다; 그리고 BLT Diffusion+Verification (BLT-DV)는 확산 기반 생성 후 자동회귀적 검증 단계(autoregressive verification step)를 추가하여 BLT-D를 보강한 것입니다. 모든 방법은 생성 작업에서 BLT 대비 50% 이상 낮은 추정 메모리 대역폭 비용을 달성할 수 있습니다. 각 접근 방식은 고유한 장점을 제공하며, 함께 바이트 레벨 LM의 실제 사용에 대한 주요 장벽들을 제거합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기