arXiv논문2026. 06. 29. 11:28

EntMTP: 엔트로피 가이드 기반 다중 토큰 예측을 통한 LLM 추론 가속화

요약

EntMTP는 로컬 생성 엔트로피에 따라 트리 기반 어텐션 토폴로지를 동적으로 전환하는 새로운 다중 토큰 예측(MTP) 스케줄러를 제안합니다. 컨텍스트의 예측 가능성에 맞춰 투기 깊이를 조절함으로써 생성 품질을 유지하면서도 추론 속도를 극대화합니다.

핵심 포인트

엔트로피 기반의 실시간 스케줄링으로 투기 깊이 최적화
정적인 트리 구조 대신 컨텍스트 맞춤형 토폴로지 전환
Medusa 대비 최대 1.36배, Hydra 대비 1.15배 속도 향상
학습이 필요 없는(training-free) 효율적인 스케줄링 방식

다중 토큰 예측 (Multi-token prediction)은 학습 중 데이터 밀도를 높이고, 다운스트림 텍스트 생성 품질을 향상시키며, 자기 투기적 디코딩 (self-speculative decoding)의 사실상 표준 방식으로 자리 잡았습니다. MTP 헤드를 사용하는 기존의 파운데이션 모델 및 오픈 소스 모델들은 전체 생성 시퀀스 동안 정적인 트리 기반 어텐션 토폴로지 (tree-based attention topology)를 고수합니다. 이는 컨텍스트와 상관없이 투기 깊이 (speculation depth), 즉 검증 과정에서 필요한 연산량이 일정하게 유지됨을 의미합니다. 이는 저엔트로피 (low-entropy) 영역에서는 신뢰할 수 있는 다단계 초안 작성이 가능하고, 고엔트로피 (high-entropy) 영역에서는 더 보수적인 투기가 필요한 자연어의 엔트로피 패턴과 근본적으로 일치하지 않습니다. 이를 해결하기 위해, 우리는 로컬 생성 엔트로피의 실시간 추정치에 따라 태스크별 파레토 최적 (pareto-optimal) 트리 세트 내에서 트리 기반 어텐션 토폴로지를 전환하는 학습이 필요 없는 스케줄러인 EntMTP (Entropy-guided Multi-Token Prediction)를 제안합니다. EntMTP는 투기 깊이를 컨텍스트 예측 가능성에 맞춤으로써, 생성 품질을 희생하지 않으면서 생성된 텍스트의 전체 분포에 걸쳐 기대 수락 토큰 처리량 (expected accepted-token throughput)을 극대화합니다. Humaneval, ShareGPT, GSM8k, 그리고 Litbench 벤치마크를 통해 평가했을 때, EntMTP는 Hydra 대비 일관되게 1.15배의 속도 향상을 달성하였으며, Medusa 베이스라인 대비 최대 1.36배의 속도 향상을 기록했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

EntMTP: 엔트로피 가이드 기반 다중 토큰 예측을 통한 LLM 추론 가속화

요약

핵심 포인트

댓글