r/Local분석2026. 05. 20. 04:24

Orthrus-Qwen3-8B: Qwen3-8B에서 최대 7.8배 토큰/순전파 달성, 백본 고정 및 출력 분포 증명 동일

요약

Orthrus-Qwen3-8B는 고정된 AR Transformer 레이어에 학습 가능한 확산 어텐션 모듈을 주입하여 추론 속도를 혁신적으로 개선한 모델입니다. 백본을 고정함으로써 기존 확산 언어 모델과 달리 정확도 손실 없이 Qwen3-8B와 동일한 출력 분포를 유지하며, MATH-500 벤치마크에서 최대 7.8배의 TPF(Tokens Per Forward)를 달성했습니다.

핵심 포인트

고정된 백본을 사용하여 기본 모델의 정확도를 완벽하게 유지하면서 추론 효율성을 극대화함
외부 드래프터 모델이 필요 없어 TTFT(Time-To-First-Token) 페널티가 0이며 KV 캐시 오버헤드가 매우 낮음
MATH-500 기준 기존 투기적 디코딩(EAGLE-3, DFlash) 대비 더 높은 수용 길이를 기록함
단일 단계 디노이징(Single-step denoising) 방식이 다단계 방식보다 우수한 성능을 보임
파라미터의 16%만 학습하여 적은 자원으로도 효율적인 학습이 가능함

코드: https://github.com/chiennv2000/orthrus
논문: https://arxiv.org/abs/2605.12825
HF: https://huggingface.co/chiennv/Orthrus-Qwen3-1.7B ; https://huggingface.co/chiennv/Orthrus-Qwen3-4B
공개 정보: 공동 저자.

아이디어: 고정된 AR Transformer의 각 레이어에 학습 가능한 확산 어텐션 모듈(diffusion attention module)을 주입한다. 두 헤드(head)는 하나의 KV 캐시를 공유한다. 확산 헤드는 병렬로 K=32개의 토큰을 투영하고, AR 헤드는 두 번째 패스에서 검증하여 가장 긴 일치 접두사(longest matching prefix)를 수용한다. 출력 분포는 기본 모델과 증명상 동일하다.

결과:

MATH-500에서 최대 7.8배 TPF, 약 6배의 벽시계 시간 단축을 달성했다.
파라미터의 16%만 학습했으며, <1B 토큰으로 8×H200에서 24시간 만에 완료했다.
확산 언어 모델(diffusion LMs) (Dream, Fast-dLLM-v2, SDAR, Mercury, Gemini Diffusion)과 비교했을 때: 이들은 기본 가중치를 수정하여 정확도를 잃는다 (Fast-dLLM-v2: MATH-500에서 -11점). Orthrus는 백본을 고정하므로 정확도가 Qwen3-8B와 정확히 일치한다.
투기적 디코딩(Speculative Decoding) (EAGLE-3, DFlash)과 비교했을 때: 외부 드래프터(drafter)가 없고, 별도의 캐시도 없으며, 별도의 드래프터 모델을 초기화하고 동기화할 필요가 없어 Time-To-First-Token (TTFT) 페널티가 0이다. KV 오버헤드는 O(1) (~4.5 MiB 고정). MATH-500에서의 수용 길이: 11.7 vs. 7.9 (DFlash) vs. 3.5 (EAGLE-3).
단일 단계 디노이징(Single-step denoising)이 다단계보다 우수하다 (6.35 vs. 3.53 TPF). KL 증류(KL distillation)가 수용률에서 CE를 능가한다.

한계점: 고정된 기본 모델에 의해 엄격하게 제한된다 (기본 모델의 편향, 환각, 지식 격차를 상속받음); Qwen3만 평가 대상; 탐욕적(greedy) + 거부 샘플링(rejection sampling)만 사용 가능.

AI 자동 생성 콘텐츠

원문 바로가기

Orthrus-Qwen3-8B: Qwen3-8B에서 최대 7.8배 토큰/순전파 달성, 백본 고정 및 출력 분포 증명 동일

요약

핵심 포인트

댓글