arXiv논문2026. 06. 02. 11:49

FLARE: 하이브리드 언어 모델을 위한 확산 모델 (Diffusion)

요약

FLARE는 자기회귀(AR) LLM의 성능을 유지하면서 확산 모델(Diffusion)의 병렬 생성 이점을 결합하는 새로운 프레임워크입니다. 데이터 품질이 모델 변환의 핵심임을 밝히고, 단일 체크포인트로 AR 디코딩과 확산 방식의 병렬 노이즈 제거를 모두 지원합니다.

핵심 포인트

AR 모델에서 확산 모델로의 효율적인 변환 프레임워크 제시
전이 데이터 품질이 모델의 능력 보존에 가장 중요한 요소임을 확인
단일 체크포인트로 AR 검증 디코딩과 확산 병렬 생성 동시 지원
기존 오픈 소스 dLLM 대비 향상된 처리량(Throughput) 제공

자기회귀 (Autoregressive, AR) 대규모 언어 모델 (Large Language Models, LLMs)은 폭넓은 실용적 성공을 거두었으나, 순차적 디코딩 (sequential decoding)은 저지연 배포 (low-latency deployment)를 위한 핵심 병목 현상으로 남아 있습니다. 최근의 효율적 추론 (efficient-inference) 연구는 두 가지 축을 따라 발전해 왔습니다: 효율적인 아키텍처를 통해 각 모델 호출 (model invocation) 비용을 줄이는 것과, 병렬 생성 (parallel generation)을 통해 직렬 디코딩 (serial decoding) 단계를 줄이는 것입니다. 하이브리드 어텐션 (Hybrid attention) 백본은 전자를 해결하며, 확산 언어 모델 (diffusion language models, dLLMs)은 반복적인 병렬 노이즈 제거 (parallel denoising)를 통해 후자를 추구합니다. 이러한 장점들을 결합하는 것은 여전히 도전적인 과제입니다: AR에서 dLLM으로의 변환은 시드 체크포인트 (seed-checkpoint) 능력을 보존하는 데 종종 실패하며, 하이브리드 어텐션 순환 상태 (hybrid-attention recurrent states)와 마스킹 제약 (masking constraints)은 확산 모델의 학습 및 서빙 (serving)을 까다롭게 만듭니다. 본 논문에서는 하이브리드 어텐션 LLM을 위한 체계적인 변환 프레임워크인 FLARE를 제시합니다. 우리의 분석에 따르면, 전이 데이터 품질 (transfer data quality)이 손실 함수 (loss formulation)나 어텐션 마스크 (attention-mask) 설계보다 능력 보존의 주요 결정 요인임을 확인했습니다. 결과적으로 도출된 프레임워크는 토큰 동등 AR 및 확산 목적 함수 (token-equal AR-and-diffusion objective), 하드웨어 인식 커널 (hardware-aware kernels), 그리고 통합 추론 (unified inference)을 결합하여, 하나의 체크포인트가 AR 방식의 검증된 디코딩 (verified decoding)과 확산 방식의 병렬 노이즈 제거를 모두 지원할 수 있게 합니다. 제한된 사후 학습 (post-training) 데이터를 가진 강력한 AR 체크포인트에서 시작하여, FLARE는 모델 규모 전반에 걸쳐 선도적인 오픈 소스 dLLM들과 경쟁할 수 있는 수준이며, 단일 GPU 동시 서빙 (single-GPU concurrent serving)에서 오픈 소스 dLLM 베이스라인 대비 일관된 처리량 (throughput) 이득을 제공합니다. 우리의 결과는 실질적인 dLLM이 디코딩 알고리즘뿐만 아니라 전이 데이터 품질과 현재의 블록 확산 (block-diffusion) 목적 함수의 학습 비효율성에 의해서도 제한된다는 점을 시사하며, 이는 데이터, 목적 함수, 아키텍처 및 추론 시스템의 공동 설계를 촉진합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FLARE: 하이브리드 언어 모델을 위한 확산 모델 (Diffusion)

요약

핵심 포인트

댓글