arXiv논문2026. 05. 01. 12:20

AHASD: 모바일 기기용 LLM 적응형 초안 생성 추상적 추론을 위한 비동기 이종 아키텍처

요약

본 논문은 모바일 NPU-PIM 시스템에서 LLM의 추론 효율성을 높이는 적응형 초안 생성(Speculative Decoding)을 위한 새로운 비동기 이종 아키텍처인 AHASD를 제안합니다. AHASD는 작업 수준으로 DLM과 TLM을 분리하여 PIM에서 병렬 초안 생성이 가능하게 하고, 엔트로피-히스토리 인식 및 시간 인식 사전 검증 제어를 통합하여 자원 낭비를 최소화합니다. 실험 결과, AHASD는 기존 GPU 전용 베이스라인 대비 최대 4.2배의 처리량 향상과 5.6배의 에너지 효율성 향상을 달성하며 높은 성능을 입증했습니다.

핵심 포인트

AHASD: 모바일 NPU-PIM 기반 적응형 초안 생성 아키텍처 제안
작업 수준 DLM-TLM 분리를 통해 PIM에서 병렬 초안 생성이 가능하도록 설계
엔트로피 및 시간 인식을 통합한 동적 초안 제어 메커니즘으로 자원 낭비 최소화
LPDDR5-PIM에 주의력 유닛과 게이트드 스케줄링 유닛을 통합하여 작업 전환 속도 극대화
GPU 전용 대비 최대 4.2배의 처리량 및 5.6배의 에너지 효율성 향상 달성

추상적 추론 (Speculative decoding) 은 작은 초안 언어 모델 (Draft Language Model, DLM) 을 사용하여 초안을 생성하고 큰 목표 언어 모델 (Target Language Model, TLM) 로 배치 단위로 검증함으로써 대규모 언어 모델 (LLMs) 의 추론 효율성을 향상시킵니다. 그러나 모바일 단일 NPU-PIM 시스템에서의 적응형 초안 생성 추론은 전통적인 오퍼레이터 수준의 동기식 실행에서는 유휴 오버헤드 (idle overhead), 비동기식 실행에서는 초안 길이의 변동으로 인한 계산 자원 낭비 (wasted computation) 를 겪습니다. 본 논문에서는 추상적 추론을 위한 작업 수준 (task-level) 비동기 모바일 NPU-PIM 이종 아키텍처인 AHASD 를 제안합니다. 특히, AHASD 는 작업 수준의 DLM-TLM 분리를 통해 PIM 에서 병렬 초안 생성과 단일 NPU 에서 검증이 가능하도록 하며, 저신뢰도 초안을 기반으로 한 무효 초안 생성을 억제하기 위해 엔트로피-히스토리 인식 초안 제어 (Entropy-History-Aware Drafting Control) 와 시간 인식 사전 검증 제어 (Time-Aware Pre-Verification Control) 를 통합하여 적응형 초안 생성 알고리즘 실행 및 사전 검증 타이밍을 동적으로 관리합니다. 또한, AHASD 는 LPDDR5-PIM 내의 주의력 알고리즘 유닛 (Attention Algorithm Units) 과 게이트드 작업 스케줄링 유닛 (Gated Task Scheduling Units) 을 통합하여 PIM 측에서 주의력 링크 로컬라이제이션 (attention link localization) 및 마이크로초 미만 수준의 작업 전환을 가능하게 합니다. 다양한 LLM 과 적응형 초안 생성 알고리즘에 대한 실험 결과, AHASD 는 GPU 전용 베이스라인 대비 최대 4.2 배의 처리량 향상과 5.6 배의 에너지 효율성 향상을 달성했으며, 최첨단 GPU+PIM 베이스라인 대비에는 1.5 배의 처리량 향상과 1.24 배의 에너지 효율성 향상을 보였습니다. 하드웨어 오버헤드는 DRAM 면적의 3% 미만입니다.

AI 자동 생성 콘텐츠

원문 바로가기

AHASD: 모바일 기기용 LLM 적응형 초안 생성 추상적 추론을 위한 비동기 이종 아키텍처

요약

핵심 포인트

댓글