본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 16. 07:39

llada.cpp, 모바일 NPU에서 LLaDA-8B 지연 시간 17-42배 단축

요약

llada.cpp는 스마트폰 NPU를 활용하여 확산 대규모 언어 모델(dLLM)의 추론 속도를 획기적으로 높이는 프레임워크입니다. 투기적 디코딩과 메모리 최적화 기술을 통해 LLaDA-8B 모델의 지연 시간을 CPU 대비 최대 42배 단축했습니다.

핵심 포인트

  • NPU 인지형 dLLM 추론 프레임워크 최초 공개
  • LLaDA-8B 모델 기준 지연 시간 17~42배 단축
  • 멀티 블록 투기적 디코딩으로 NPU 활용도 극대화
  • 이중 경로 수정 및 스왑 최적화 메모리 런타임 적용
  • 생성 품질 저하 없이 실시간 온디바이스 생성 가능

llada.cpp는 최초의 NPU 인지형 (NPU-aware) dLLM 추론 프레임워크로, 스마트폰에서 LLaDA-8B의 지연 시간 (latency)을 17-42배 단축하여 실시간 온디바이스 생성을 가능하게 합니다.

Tuowei Wang 등이 arXiv에 발표한 llada.cpp는 스마트폰용 확산 대규모 언어 모델 (diffusion LLMs)을 위한 최초의 NPU 인지형 추론 프레임워크입니다. 이 프레임워크는 생성 품질을 유지하면서 CPU 베이스라인 대비 LLaDA-8B의 생성 지연 시간을 17배에서 42배까지 줄여줍니다.

주요 사실

  • SM8750 SoC를 탑재한 OnePlus Ace5 Pro에서 17배-42배 속도 향상
  • 최초의 NPU 인지형 (NPU-aware) dLLM 추론 프레임워크 (llada.cpp)
  • 세 가지 기술: 투기적 디코딩 (speculative decoding), 이중 경로 수정 (dual-path revision), 스왑 런타임 (swap runtime)
  • 128개 토큰 출력을 대상으로 LLaDA-8B에서 평가됨
  • 2026-06-11 arXiv에 발표

확산 대규모 언어 모델 (dLLMs)은 여러 토큰을 병렬로 노이즈 제거 (denoise) 하여 자기회귀 (autoregressive) 모델보다 빠른 생성을 약속하지만, 반복적인 노이즈 제거 과정은 스마트폰에 계산 부담이 큽니다. 모바일 NPU는 높은 처리량의 밀집 행렬 연산 (dense matrix computation)을 제공하지만, 세 가지 문제가 효율적인 dLLM 배포를 가로막습니다: 토큰 확정 (token commitment)으로 인해 블록당 작업량이 줄어들고, 토큰 수정 (token revision)이 KV 캐시 (KV cache) 재사용을 복잡하게 만들며, NPU에서 접근 가능한 주소 공간의 제한으로 인해 비용이 많이 드는 재매핑 (remapping) 및 데이터 전송이 강제됩니다.

arXiv 프리프린트에 따르면, llada.cpp는 다음 세 가지 기술로 이 문제를 해결합니다:

1. 멀티 블록 투기적 디코딩 (Multi-Block Speculative Decoding) — 현재 블록 디코딩의 후기 단계에서는 대부분의 토큰이 이미 확정되었기 때문에 작업량이 줄어듭니다. llada.cpp는 미래 블록의 토큰을 투기적으로 디코딩하여 그 간극을 채움으로써 NPU를 완전히 활용 상태로 유지합니다.

2. 이중 경로 점진적 수정 (Dual-Path Progressive Revision) — 초기에 확정된 토큰도 여전히 수정이 필요할 수 있습니다. 이 프레임워크는 토큰이 안정될 때까지 수정 가능한 상태로 유지하며, 밀집 NPU 실행을 중단시키지 않는 CPU 측 경로를 통해 불안정한 토큰을 갱신합니다.

3. 스왑 최적화 메모리 런타임 (Swap-Optimized Memory Runtime) — NPU에서 접근 가능한 주소 레이아웃을 압축하고 데이터 스테이징 (data staging)을 NPU 연산과 중첩시켜, 재매핑 및 전송 오버헤드를 대폭 절감합니다.

저자들은 Qualcomm의 SM8750 SoC를 탑재한 OnePlus Ace5 Pro에서 llada.cpp를 평가하였으며, 접두사 KV 캐시 재사용 (prefix KV cache reuse)을 사용하는 CPU 베이스라인과 비교했을 때 128개 토큰 출력 기준 17배에서 42배의 엔드 투 엔드 (end-to-end) 속도 향상을 달성했습니다. 생성 품질은 유지되었습니다. 논문에서는 퍼플렉시티 (perplexity) 또는 다운스트림 태스크 (downstream task) 점수에서 유의미한 저하가 없다고 보고했습니다.

이것이 온디바이스 AI에 중요한 이유

이 연구는 Reddit 토론에서 언급된 바와 같이, 현재 NPU 사용이 프리필 (prefill) 단계 (프롬프트 입력, 첫 번째 토큰 생성)에 국한되어 있다는 모바일 추론의 구조적 병목 현상을 직접적으로 해결합니다. llada.cpp는 이전에는 CPU나 GPU로 폴백 (fallback)할 수밖에 없었던 까다로운 수정 (revision) 단계를 포함하여, 전체 디코드 루프 (decode loop)로 NPU 가속을 확장합니다. 17~42배의 속도 향상은 수 초가 걸리던 모델이 이제 수백 밀리초 내에 실행될 수 있음을 의미하며, 이는 실시간 온디바이스 생성을 가능하게 하는 임계값입니다.

또한 이 논문은 더 넓은 트렌드를 강조합니다. dLLM (예: LLaDA, MDLM)이 인기를 얻음에 따라, 추론 프레임워크는 이들의 독특한 연산 패턴에 맞춰 진화해야 합니다. 자기회귀 (Autoregressive) 최적화 (추측적 디코딩 (speculative decoding), KV 캐시 양자화 (KV cache quantization))는 직접적으로 전이되지 않으며, llada.cpp의 멀티 블록 추측적 디코딩 (multi-block speculative decoding)은 새로운 적응 방식입니다.

한계점

평가는 하나의 SoC (SM8750)와 하나의 모델 (LLaDA-8B)로 제한되었습니다. 다른 NPU 아키텍처 (Apple Neural Engine, MediaTek APU) 및 더 큰 dLLM으로의 일반화는 아직 검증되지 않았습니다. 논문은 모바일 배포에 매우 중요한 전력 소비 수치를 보고하지 않았습니다. 코드는 아직 공개적으로 출시되지 않았으나, 저자들은 오픈 소스로 공개할 계획입니다.

주목해야 할 점

llada.cpp 코드의 오픈 소스 공개와 Apple Neural Engine 및 MediaTek APU에 대한 후속 평가를 주목하십시오. 또한 LLaDA 또는 다른 dLLM이 모바일에서 채택되는지 지켜봐야 합니다. 만약 채택된다면, llada.cpp의 접근 방식은 온디바이스 추론의 표준이 될 수 있습니다.

Figure 2. Comparison of decoding paradigms: (a) autoregressive, (b) diffusion, and (c) block-wise diffusion LLM decoding

출처: arxiv.org

원래 게재된 곳: gentic.news

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0