본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 11:58

Cassandra: 자기 투기적 디코딩 (Self-Speculative Decoding)을 통한 엣지에서의 추론 LLM 구현

요약

Cassandra는 엣지 기기에서의 효율적인 LLM 추론을 위해 알고리즘과 하드웨어를 공동 설계한 자기 투기적 디코딩 프레임워크입니다. 추가 학습 없이도 미세한 데이터 선택과 가중치 최적화를 통해 저배치 시나리오에서 높은 추론 속도를 제공합니다.

핵심 포인트

  • 추가 학습 없이 BF16 베이스라인 대비 최대 2.41배 속도 향상
  • 미세한 데이터 선택 및 가중치/KV 캐시 최적화 기술 적용
  • 상용 GPU 및 NPU와 통합 가능한 경량 하드웨어 모듈 도입
  • Llama 3 8B 기준 Eagle-3 대비 동일 메모리 내 1.81배 높은 토큰 생성량

투기적 디코딩 (Speculative decoding)은 대규모 언어 모델 (LLMs)을 가속화하기 위한 유망한 무손실 (lossless) 접근 방식으로 부상했습니다. 추론 LLM (reasoning LLMs)이 디코딩 단계의 오버헤드 (decode-stage overhead)로 인해 점점 더 어려움을 겪고 근사 기반 방식 (approximation-based methods)이 정확도를 저하시킴에 따라, 효율적인 추론을 위해 무손실 투기적 디코딩이 필수적이 되었습니다. 그러나 기존 방식들은 추가 학습 없이 강력한 저배치 (low-batch) 성능을 제공하는 데 여전히 어려움을 겪고 있으며, 이는 소비자용 기기에서의 실질적인 배포를 제한합니다. 이러한 과제를 해결하기 위해, 우리는 저배치 시나리오에 최적화된 알고리즘-하드웨어 공동 설계된 자기 투기적 디코딩 (self-speculative decoding) 프레임워크인 Cassandra를 제안합니다. Cassandra는 미세한 데이터 선택 (fine-grained data selection)을 통해 고성능의 학습이 필요 없는 초안 모델 (draft model)을 구축합니다. 최적화된 가지치기 (pruning) 및 가수부 절단 (mantissa truncation)을 사용하여 모델 가중치와 Key-Value (KV) 캐시 모두에서 가장 중요한 값을 식별하며, 이를 통해 전체 정밀도 병렬 검증 (full-precision parallel verification) 전에 빠른 후보 토큰 생성을 가능하게 합니다. 레이어 건너뛰기 (layer skipping) 또는 구조적 KV 압축 (structured KV compression)에 기반한 이전의 자기 투기적 디코딩 방식과 달리, Cassandra는 현저히 높은 효율성을 달성합니다. Cassandra 표현 방식과 표준 부동 소수점 형식 (standard floating-point formats) 간의 형식 변환 오버헤드를 더욱 줄이기 위해, 우리는 상용 GPU 및 NPU와 원활하게 통합되도록 설계된 경량 인코더-디코더 하드웨어 모듈도 도입합니다. 실험 결과에 따르면 Cassandra는 추가 학습 없이 BF16 베이스라인 대비 최대 2.41배의 속도 향상을 달성합니다. 또한, NVIDIA GeForce RTX 4090에서 실행되는 Llama 3 8B를 대상으로 했을 때, Cassandra는 최첨단 투기적 디코딩 방식인 Eagle-3과 비교하여 동일한 메모리 예산 내에서 1.81배 더 많은 토큰을 생성합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0