AHASD: 모바일 기기용 LLM 적응형 초안 생성 추상적 디코딩을 위한 비동기 이종 아키텍처
요약
본 논문은 모바일 NPU-PIM 시스템에서 LLM 추론 효율성을 극대화하기 위해 AHASD라는 비동기 이종 아키텍처를 제안합니다. AHASD는 작업 수준의 DLM-TLM 분리를 통해 PIM에서 병렬 초안 생성이 가능하고, 단일 NPU에서 검증을 수행하여 자원 낭비를 줄입니다. 또한 엔트로피 및 시간 인식을 통합한 정교한 초안 제어 메커니즘으로 알고리즘 실행과 사전 검증 타이밍을 동적으로 관리하며, LPDDR5-PIM에 주의력 유닛과 게이트드 스케줄링 유닛을 통합하여 높은 처리량과 에너지 효율성 향상을 달성했습니다.
핵심 포인트
- AHASD는 모바일 NPU-PIM 환경에서 LLM의 추론 속도와 전력 효율성을 개선하는 비동기 이종 아키텍처이다.
- 작업 수준의 DLM-TLM 분리를 통해 PIM과 NPU 간 병렬 처리 및 검증을 구현하여 자원 활용도를 높였다.
- 엔트로피-히스토리 인식 제어 및 시간 인식 사전 검증 제어를 통합하여 무효한 초안 생성을 효과적으로 억제한다.
- LPDDR5-PIM에 주의력 알고리즘 유닛과 게이트드 작업 스케줄링 유닛을 내장하여 마이크로초 단위의 빠른 작업 전환이 가능하다.
- 실험 결과, AHASD는 GPU 단독 대비 최대 4.2배의 처리량 및 5.6배의 에너지 효율성 향상을 보여 뛰어난 성능을 입증했다.
추상적 디코딩 (Speculative decoding) 은 작은 초안 언어 모델 (Draft Language Model, DLM) 을 사용하여 초안을 생성하고 큰 타겟 언어 모델 (Target Language Model, TLM) 로 배치 단위로 검증함으로써 대용량 언어 모델 (LLMs) 의 추론 효율성을 향상시킵니다. 그러나 모바일 단일 NPU-PIM 시스템에서 적응형 초안 생성 추론의 경우 전통적인 오퍼레이터 수준의 동기 실행에서는 유휴 오버헤드, 비동기 실행에서는 초안 길이의 변동으로 인해 계산 자원이 낭비되는 문제가 발생합니다. 본 논문은 추상적 디코딩을 위한 작업 수준의 비동기 모바일 NPU-PIM 이종 아키텍처인 AHASD 를 소개합니다. 특히 AHASD 는 작업 수준의 DLM-TLM 분리 (decoupling) 를 통해 PIM 에서 병렬 초안 생성과 단일 NPU 에서 검증이 가능하도록 하며, 저신뢰도 초안을 기반으로 하는 무효한 초안 생성을 억제하기 위해 엔트로피-히스토리 인식 초안 제어 (Entropy-History-Aware Drafting Control) 와 시간 인식 사전 검증 제어 (Time-Aware Pre-Verification Control) 를 통합하여 적응형 초안 생성 알고리즘 실행 및 사전 검증 타이밍을 동적으로 관리합니다. 또한 AHASD 는 LPDDR5-PIM 내에 주의력 알고리즘 유닛 (Attention Algorithm Units) 과 게이트드 작업 스케줄링 유닛 (Gated Task Scheduling Units) 을 통합하여 PIM 측에서 주의력 링크 로컬라이제이션 및 마이크로초 이하의 작업 전환을 가능하게 합니다. 다양한 LLM 과 적응형 초안 생성 알고리즘에 대한 실험 결과, AHASD 는 GPU 만을 사용한 기준 대비 최대 4.2 배의 처리량 (throughput) 향상과 5.6 배의 에너지 효율성 (energy efficiency) 향상을 달성했으며, 최첨단 GPU+PIM 기준 대비에는 1.5 배의 처리량 향상과 1.24 배의 에너지 효율성 향상을 보였습니다. 이때 하드웨어 오버헤드는 DRAM 면적의 3% 미만으로 유지되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기