arXiv논문2026. 05. 02. 13:31

AMMA: 저지연 1M 컨텍스트 어텐션 서빙을 위한 멀티 칩렛 메모리 중심 아키텍처

요약

본 기술 기사는 LLM 서빙의 주요 병목 현상인 메모리 바운드 어텐션 지연 문제를 해결하기 위해 'AMMA(Attention Memory-centric Multi-chiplet Architecture)'라는 새로운 아키텍처를 제안합니다. 기존 시스템이 GPU 컴퓨팅에 초점을 맞추어 메모리 중심 워크로드와 불일치했던 점을 개선하고자, AMMA는 GPU 컴퓨팅 다이를 HBM-PNM 큐브로 대체하여 메모리 대역폭을 극대화했습니다. 이를 통해 어텐션 지연 시간을 획기적으로 줄이고 에너지 효율성을 높여, 장문 컨텍스트(1M 토큰)를 처리하는 LLM 서빙에 최적화된 솔루션을 제공합니다.

핵심 포인트

AMMA는 메모리 바운드 특성을 가진 LLM 어텐션 워크로드를 위해 설계된 멀티 칩렛 아키텍처입니다.
기존 GPU 중심의 시스템은 대용량 컨텍스트 처리 시 발생하는 메모리 병목 현상(어텐션 지연)을 해결하기 어렵습니다.
AMMA는 컴퓨팅 다이를 HBM-PNM 큐브로 대체하여 메모리 대역폭을 두 배 증가시키고, 이를 활용하는 최적화된 로직 및 통신 방식을 도입했습니다.
실험 결과, AMMA는 NVIDIA H100 대비 어텐션 지연 시간을 약 15.5배 낮추고 에너지 소비를 6.9배 절감하는 성능을 입증했습니다.

현재 모든 LLM 서빙 시스템은 GPU 를 중심으로 설계되고 있으며, 프로덕션 레벨의 어텐션-FFN 분산화부터 NVIDIA 의 Rubin GPU-LPU 이종 플랫폼까지 마찬가지입니다. 심지어 학술적인 PIM/PNM 제안들도 장치를 간통하는 통신의 중심 허브로 GPU 를 대우합니다. 그러나 GPU 의 컴퓨팅이 풍부한 아키텍처는 디코드 단계 어텐션의 메모리 바운드 특성과 근본적으로 불일치하여 서빙 지연을 증가시키고, 유휴 컴퓨팅 유닛에서 전력과 칩 면적을 낭비하게 만듭니다. 추론 및 에이전트 워크로드가 컨텍스트 길이를 100 만 토큰으로 밀어붙이면서 어텐션 지연이 주요 사용자 측면 병목 현상이 되는 문제가 더욱 악화됩니다. 이러한 비효율성을 해결하기 위해 저자는 AMMA, 즉 저지연 장컨텍스트 어텐션을 위한 멀티 칩렛 메모리 중심 아키텍처를 제시합니다. AMMA 는 GPU 컴퓨팅 다이 (compute dies) 를 HBM-PNM 큐브로 대체하여 사용 가능한 메모리 대역폭을 약 두 배로 늘려 메모리 바운드 어텐션 워크로드를 더 잘 지원합니다. 이 대역폭을 비례적인 성능 향상으로 전환하기 위해, 우리는 (i) 최소 전력 및 면적 예산 하에서 디코드 어텐션 시 큐브 내부 대역폭을 완전히 활용하는 로직 다이 마이크로아키텍처, (ii) 2 단계 하이브리드 병렬화 방식, (iii) 칩 내 다이 간 통신 오버헤드를 줄이는 재순서화된 콜렉티브 흐름을 도입했습니다. 우리는 또한 큐브당 컴퓨팅 전력 및 칩 내 D2D 링크 대역폭에 대한 설계 공간 탐색을 수행하여 하드웨어 디자이너에게 실행 가능한 지침을 제공합니다. 평가 결과, AMMA 는 NVIDIA H100 대비 15.5 배 낮은 어텐션 지연과 6.9 배 낮은 에너지 소비를 달성했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AMMA: 저지연 1M 컨텍스트 어텐션 서빙을 위한 멀티 칩렛 메모리 중심 아키텍처

요약

핵심 포인트

댓글