HyperDFlash: 게이트형 잔차 감소(Gated Residual Reduction)를 이용한 MHC 정렬 블록 투기적 디코딩
요약
DeepSeek-V4의 MHC 아키텍처에 최적화된 새로운 투기적 디코딩 프레임워크인 HyperDFlash를 제안합니다. 게이트형 잔차 감소와 모델 정렬 최적화를 통해 초안 작성의 정확도를 높이고 디코딩 속도를 크게 개선했습니다.
핵심 포인트
- DeepSeek-V4의 MHC 구조에 맞춘 블록 병렬 투기적 디코딩 구현
- 게이트형 잔차 감소기를 통한 파라미터 수 1,000배 절감
- MHC 잔차 스트림 정렬을 통한 초안 작성 정확도 향상
- KL 증류 손실을 적용하여 타겟 확률 분포 예측 정규화
- 수학, 코드, 대화 벤치마크에서 기존 방식 대비 우수한 성능 입증
우리는 DeepSeek-V4에서 제안된 새로운 다중 하이퍼 연결 (multi-hyper-connection, MHC) 아키텍처에 맞춤화된 블록 병렬 투기적 디코딩 (block-parallel speculative decoding) 프레임워크인 HyperDFlash를 선보입니다. DeepSeek-V4의 네이티브 다중 토큰 예측 (Multi-Token Prediction, MTP) 모듈이 초기 토큰 초안 작성 (drafting) 성능은 강력하지만, 검증되지 않은 중간 토큰들로부터 발생하는 오차 누적이 수락률 (acceptance rates)을 저해함에 따라 후기 위치에서는 초안 정확도가 급격히 저하됩니다. 기존의 DFlash 방식은 효율적인 단일 패스 블록 초안 작성을 지원하지만, DeepSeek-V4의 다중 경로 잔차 스트림 (multi-path residual stream)이 기존의 초안 작성 설계와 특징 불일치 (feature misalignment)를 유발하기 때문에 MHC 패러다임에 원활하게 적응할 수 없습니다. 이러한 불일치를 해결하기 위해, 우리는 MHC 잔차 스트림을 위한 두 가지 모델 정렬 최적화를 제안합니다. 첫째, 붕괴 전 잔차 상태 (pre-collapse residual states)를 독점적인 조건화 신호 (conditioning signal)로 채택하여, 다중 경로 구조 정보를 보존하고 초안 작성기 (drafter)를 타겟 모델의 네이티브 예측 경로와 정렬합니다. 둘째, 무거운 범용 선형 압축기 (generic linear compressor)를 내장된 하이퍼 연결 헤드 (hyper-connection head)로부터 상속된 파라미터를 가진 경량 게이트형 잔차 감소기 (gated residual reducer)로 교체합니다. 이 설계는 아키텍처 정렬을 유지하면서도 파라미터 수를 3자릿수(1,000배) 가량 줄인 입력 인지형 경로 집계 (input-aware path aggregation)를 구현합니다. 나아가 우리는 언어 모델 헤드 (LM-head)에 적용되는 타겟 KL 증류 손실 (KL distillation loss)을 통해 훈련을 강화하며, 이는 전체 타겟 확률 분포에 대해 예측을 정규화하고 훈련 초기 단계에서 초안 품질을 향상시킵니다. 수학적 추론, 코드 합성 및 대화형 벤치마크 전반에 걸친 실험 결과, HyperDFlash는 네이티브 MTP 베이스라인과 일반적인 DFlash 적응 모델 모두를 일관되게 능가함을 보여줍니다. 이는 평균 수락된 초안 길이 (average accepted draft length)와 디코딩 가속도에서 상당한 이득을 달성하며, 고성능 투기적 디코딩을 위한 MHC 정렬, 게이트형 감소, 그리고 타겟 증류의 효과를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기