arXiv논문2026. 05. 26. 12:49

Triplet-Block Diffusion RWKV

요약

RWKV의 선형 시간 효율성과 이산 확산 모델의 양방향성을 통합한 B³D-RWKV 모델을 제안합니다. Triplet-block layout을 통해 추론 효율성을 유지하면서도 확산 모델의 병렬적 특성을 결합했습니다.

핵심 포인트

Triplet-block layout을 통한 인과 모델과 확산 모델의 통합
O(L) 추론 효율성과 양방향 이산 확산 모델 구현
기존 모델 대비 평균 1.6배의 디코딩 처리량 향상 달성
8개 태스크 세트에서 기존 모델과 대등한 정확도 확보

Causal Transformer 언어 모델은 엄격한 순차적 디코딩 (sequential decoding)과 단계당 이차 시간 복잡도 (quadratic per-step)를 갖는 어텐션 (attention) 비용 문제로 어려움을 겪습니다. 선형 시간 인과 모델 (linear-time causal models)과 이산 확산 모델 (discrete diffusion models)은 각각 이러한 약점들을 해결하지만, 이들의 통합은 본질적으로 일관되지 않은 상태로 남아 있습니다. 즉, 확산 (diffusion) 모델은 양방향 어텐션 (bidirectional attention)을 필요로 하는 반면, 인과 모델 (causal models)은 단방향 (unidirectional)이기 때문입니다. 이러한 아키텍처들을 통합하기 위해, 우리는 extit{triplet-block layout} 방법을 통해 모델의 $O(L)$ 추론 효율성과 병렬적이고 양방향적인 이산 확산 (discrete-diffusion)을 통합한 확산 RWKV 변형 모델인 $B^3D-RWKV$를 제안합니다. $B^3D-RWKV-7.2B$는 8개 태스크 세트에서 기존 모델들과 대등한 정확도에 도달하는 동시에, 디코딩 처리량 (decoding throughput) 측면에서 베이스라인 모델들을 크게 앞서며 평균 $\mathbf{1.6\times}$의 속도 향상을 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Triplet-Block Diffusion RWKV

요약

핵심 포인트

댓글