TokenStack: A Heterogeneous HBM-PIM Architecture and Runtime for Efficient LLM
요약
본 기술 기사는 대형 언어 모델(LLM) 서빙의 주요 병목인 KV 캐시 메모리 문제를 해결하기 위해 'TokenStack'이라는 이질적인 HBM-PIM 아키텍처를 제안합니다. TokenStack은 LLM 레이어를 밀집 용량 영역과 PIM 활성화 컴퓨팅 영역으로 수직 분리하고, 논리 기반 디어 컨트롤러를 사용하여 효율적으로 데이터 이동 및 관리를 수행합니다. 이를 통해 뜨거운 KV 캐시 데이터를 PIM 근처에 유지하고 차가운 상태는 고밀도 저장소로 옮겨 메모리 대역폭과 용량을 최적화하며, 기존 방식 대비 높은 처리량 증가와 에너지 효율성 개선을 입증했습니다.
핵심 포인트
- TokenStack은 LLM 서빙의 KV 캐시 병목 현상을 해결하기 위해 설계된 이질적인 HBM-PIM 아키텍처입니다.
- 아키텍처는 레이어를 밀집 용량(Dense Capacity) 영역과 PIM 활성화 컴퓨팅(Active Computing) 영역으로 수직 분리하여 자원 활용을 최적화합니다.
- 논리 기반 디어 컨트롤러가 DMA, 주소 변환, 양자화 등을 처리하며 호스트 오버헤드를 줄이고 레이어 간 데이터 이동을 관리합니다.
- TokenStack은 뜨거운 KV 데이터를 PIM 근처에 유지하고 차가운 상태를 밀집 저장소로 옮겨 메모리 대역폭과 용량을 효율적으로 분리합니다.
- 실제 테스트 결과, TokenStack은 기존 방식 대비 토큰 처리량(throughput) 및 SLO 준수 서빙 용량을 크게 향상시키고 에너지 소비를 절감했습니다.
대형 언어 모델 (LLM) 서빙은 현재 키 - 값 (KV) 캐시로 제한됩니다. 디코딩 동안 각 새로운 토큰은 이전 KV 상태를 재읽기 때문에, 주의는 대역폭과 용량에 중대한 메모리 작업이 됩니다. HBM-PIM 는 주의 메모리에 더 가깝게 이동함으로써 도움을 주지만, 현재 스택 조직은 여전히 자원을 낭비합니다. 실제로는 뜨거운 KV 블록만이 메모리 근처 컴퓨팅의 혜택을 받습니다. 가중치, 활성화, 차가운 KV 는 주로 밀집 저장과 GPU 가시 대역폭이 필요합니다. 균일한 HBM-PIM 스택은 모든 레이어가 PIM 로직을 지불하게 만들고, AttAcc 와 같은 전용-PIM 디자인은 용량을 회복하지만 GPU 측 작업에 남은 HBM 대역폭을 줄입니다. 우리는 TokenStack 을 제안합니다. 이는 KV 중심 LLM 서빙을 위한 수직적으로 이질적인 HBM-PIM 아키텍처이며, HBM4 의 논리 - 디ე 자산을 활용합니다. TokenStack 은 각 스택을 밀집 용량 레이어와 PIM 활성화 컴퓨팅 레이어로 분리하고, 논리 기반 디어를 스택 로컬 제어점으로 사용하여 호스트 측 오버헤드 없이 레이어 간 이동을 관리합니다. 기본 디어 컨트롤러는 레이어 간 DMA, 레이어 주소 변환, 주의 측 거버/브로드캐스트 조정, 그리고 마이그레이션 동안 인라인 양자화를 처리합니다. 이 하드웨어 위에 TokenStack 은 토폴로지 감지 KV 배치, 워크로드 감지 대피, 및 제한된 복제를 사용하여 뜨거운 KV 를 PIM 컴퓨팅 근처에 유지하고 차가운 상태를 밀집 레이어로 이동시킵니다. 4 개 모델에 대한 생산 도출 트레이스 사용으로, 완료된 다중 QPS 실행은 TokenStack 이 AttAcc 과 비교하여 기하학적 평균 토큰 투과도를 1.62 배 증가시키고 SLO 준수 서빙 용량을 1.70 배 증가시키며, 토큰당 에너지를 30-47% 감소시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기