AMMA: 저지연 1M 컨텍스트 어텐션 서빙을 위한 멀티 칩렛 메모리 중심 아키텍처
요약
본 기술 기사는 LLM 서빙의 주요 병목 현상인 메모리 바운드 어텐션 지연 문제를 해결하기 위해 'AMMA(Attention Memory-centric Multi-chiplet Architecture)'라는 새로운 아키텍처를 제안합니다. 기존 시스템이 GPU 컴퓨팅에 초점을 맞추어 메모리 중심 워크로드와 불일치했던 점을 개선하고자, AMMA는 GPU 컴퓨팅 다이를 HBM-PNM 큐브로 대체하여 메모리 대역폭을 극대화했습니다. 이를 통해 어텐션 지연 시간을 획기적으로 줄이고 에너지 효율성을 높여, 장문 컨텍스트(1M 토큰)를 처리하는 LLM 서빙에 최적화된 솔루션을 제공합니다.
핵심 포인트
- AMMA는 메모리 바운드 특성을 가진 LLM 어텐션 워크로드를 위해 설계된 멀티 칩렛 아키텍처입니다.
- 기존 GPU 중심의 시스템은 대용량 컨텍스트 처리 시 발생하는 메모리 병목 현상(어텐션 지연)을 해결하기 어렵습니다.
- AMMA는 컴퓨팅 다이를 HBM-PNM 큐브로 대체하여 메모리 대역폭을 두 배 증가시키고, 이를 활용하는 최적화된 로직 및 통신 방식을 도입했습니다.
- 실험 결과, AMMA는 NVIDIA H100 대비 어텐션 지연 시간을 약 15.5배 낮추고 에너지 소비를 6.9배 절감하는 성능을 입증했습니다.
현재 모든 LLM 서빙 시스템은 GPU 를 중심으로 설계되고 있으며, 프로덕션 레벨의 어텐션-FFN 분산화부터 NVIDIA 의 Rubin GPU-LPU 이종 플랫폼까지 마찬가지입니다. 심지어 학술적인 PIM/PNM 제안들도 장치를 간통하는 통신의 중심 허브로 GPU 를 대우합니다. 그러나 GPU 의 컴퓨팅이 풍부한 아키텍처는 디코드 단계 어텐션의 메모리 바운드 특성과 근본적으로 불일치하여 서빙 지연을 증가시키고, 유휴 컴퓨팅 유닛에서 전력과 칩 면적을 낭비하게 만듭니다. 추론 및 에이전트 워크로드가 컨텍스트 길이를 100 만 토큰으로 밀어붙이면서 어텐션 지연이 주요 사용자 측면 병목 현상이 되는 문제가 더욱 악화됩니다. 이러한 비효율성을 해결하기 위해 저자는 AMMA, 즉 저지연 장컨텍스트 어텐션을 위한 멀티 칩렛 메모리 중심 아키텍처를 제시합니다. AMMA 는 GPU 컴퓨팅 다이 (compute dies) 를 HBM-PNM 큐브로 대체하여 사용 가능한 메모리 대역폭을 약 두 배로 늘려 메모리 바운드 어텐션 워크로드를 더 잘 지원합니다. 이 대역폭을 비례적인 성능 향상으로 전환하기 위해, 우리는 (i) 최소 전력 및 면적 예산 하에서 디코드 어텐션 시 큐브 내부 대역폭을 완전히 활용하는 로직 다이 마이크로아키텍처, (ii) 2 단계 하이브리드 병렬화 방식, (iii) 칩 내 다이 간 통신 오버헤드를 줄이는 재순서화된 콜렉티브 흐름을 도입했습니다. 우리는 또한 큐브당 컴퓨팅 전력 및 칩 내 D2D 링크 대역폭에 대한 설계 공간 탐색을 수행하여 하드웨어 디자이너에게 실행 가능한 지침을 제공합니다. 평가 결과, AMMA 는 NVIDIA H100 대비 15.5 배 낮은 어텐션 지연과 6.9 배 낮은 에너지 소비를 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기