본문으로 건너뛰기

© 2026 Molayo

r/Local분석2026. 05. 20. 04:24

Orthrus-Qwen3-8B: Qwen3-8B에서 최대 7.8배 토큰/순전파 달성, 백본 고정 및 출력 분포 증명 동일

요약

Orthrus-Qwen3-8B는 고정된 AR Transformer 레이어에 학습 가능한 확산 어텐션 모듈을 주입하여 추론 속도를 혁신적으로 개선한 모델입니다. 백본을 고정함으로써 기존 확산 언어 모델과 달리 정확도 손실 없이 Qwen3-8B와 동일한 출력 분포를 유지하며, MATH-500 벤치마크에서 최대 7.8배의 TPF(Tokens Per Forward)를 달성했습니다.

핵심 포인트

  • 고정된 백본을 사용하여 기본 모델의 정확도를 완벽하게 유지하면서 추론 효율성을 극대화함
  • 외부 드래프터 모델이 필요 없어 TTFT(Time-To-First-Token) 페널티가 0이며 KV 캐시 오버헤드가 매우 낮음
  • MATH-500 기준 기존 투기적 디코딩(EAGLE-3, DFlash) 대비 더 높은 수용 길이를 기록함
  • 단일 단계 디노이징(Single-step denoising) 방식이 다단계 방식보다 우수한 성능을 보임
  • 파라미터의 16%만 학습하여 적은 자원으로도 효율적인 학습이 가능함

아이디어: 고정된 AR Transformer의 각 레이어에 학습 가능한 확산 어텐션 모듈(diffusion attention module)을 주입한다. 두 헤드(head)는 하나의 KV 캐시를 공유한다. 확산 헤드는 병렬로 K=32개의 토큰을 투영하고, AR 헤드는 두 번째 패스에서 검증하여 가장 긴 일치 접두사(longest matching prefix)를 수용한다. 출력 분포는 기본 모델과 증명상 동일하다.

결과:

  • MATH-500에서 최대 7.8배 TPF, 약 6배의 벽시계 시간 단축을 달성했다.
  • 파라미터의 16%만 학습했으며, <1B 토큰으로 8×H200에서 24시간 만에 완료했다.
  • 확산 언어 모델(diffusion LMs) (Dream, Fast-dLLM-v2, SDAR, Mercury, Gemini Diffusion)과 비교했을 때: 이들은 기본 가중치를 수정하여 정확도를 잃는다 (Fast-dLLM-v2: MATH-500에서 -11점). Orthrus는 백본을 고정하므로 정확도가 Qwen3-8B와 정확히 일치한다.
  • 투기적 디코딩(Speculative Decoding) (EAGLE-3, DFlash)과 비교했을 때: 외부 드래프터(drafter)가 없고, 별도의 캐시도 없으며, 별도의 드래프터 모델을 초기화하고 동기화할 필요가 없어 Time-To-First-Token (TTFT) 페널티가 0이다. KV 오버헤드는 O(1) (~4.5 MiB 고정). MATH-500에서의 수용 길이: 11.7 vs. 7.9 (DFlash) vs. 3.5 (EAGLE-3).
  • 단일 단계 디노이징(Single-step denoising)이 다단계보다 우수하다 (6.35 vs. 3.53 TPF). KL 증류(KL distillation)가 수용률에서 CE를 능가한다.

한계점: 고정된 기본 모델에 의해 엄격하게 제한된다 (기본 모델의 편향, 환각, 지식 격차를 상속받음); Qwen3만 평가 대상; 탐욕적(greedy) + 거부 샘플링(rejection sampling)만 사용 가능.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA (top/week)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0