본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 12:25

AMMA: 저지연 1M 컨텍스트 어텐션 서빙을 위한 멀티 칩렛 메모리 중심 아키텍처

요약

AMMA는 초장문 컨텍스트(1M 토큰) 환경에서 발생하는 메모리 바운드 어텐션 병목 현상을 해결하기 위해 제안된 멀티 칩렛 메모리 중심 아키텍처입니다. 기존의 GPU 중심 설계가 디코드 단계의 메모리 요구 사항과 불일치하여 지연 시간을 증가시키고 전력을 낭비하는 문제를 개선합니다. AMMA는 컴퓨팅 다이를 HBM-PNM 큐브로 대체하고, 최적화된 마이크로아키텍처 및 새로운 병렬화 스킴을 도입하여 기존 대비 현저히 낮은 어텐션 지연 시간과 에너지 소비를 달성했습니다.

핵심 포인트

  • 기존 LLM 서빙 시스템은 GPU 중심 설계로 인해 장컨텍스트(Long-Context) 메모리 바운드 워크로드에 비효율적입니다.
  • AMMA는 컴퓨팅 다이를 HBM-PNM 큐브로 대체하는 메모리 중심 아키텍처를 채택하여 메모리 대역폭을 극대화합니다.
  • 최소 전력 및 면적 예산 하에서 내부 대역폭 활용을 위한 로직 마이크로아키텍처와 2단계 하이브리드 병렬화 스킴이 도입되었습니다.
  • AMMA는 NVIDIA H100 대비 어텐션 지연 시간을 15.5배, 에너지 소비를 6.9배 개선하는 성능을 입증했습니다.

현재 모든 LLM 서빙 시스템은 GPU 를 중심으로 설계되고 있으며, 프로덕션 수준의 어텐션-FFN 분산부터 NVIDIA 의 Rubin GPU-LPU 이종 플랫폼에 이르기까지 마찬가지입니다. 또한 학술적인 PIM/PNM 제안들도 여전히 교차 장치 통신의 중심 허브로 GPU 를 간주합니다. 그러나 GPU 의 컴퓨팅 집중 아키텍처는 디코드 단계 어텐션의 메모리 바운드 특성과 근본적으로 불일치하여 서빙 지연 시간을 증가시키고, 유휴 컴퓨팅 유닛에 전력 및 다이 면적을 낭비하게 만듭니다. 추론 및 에이전트 워크로드가 컨텍스트 길이를 100 만 토큰 수준으로 밀어붙이면서 어텐션 지연 시간이 주요 사용자 측면 병목 현상이 되는 문제가 더욱 악화되고 있습니다. 이러한 비효율성을 해결하기 위해 우리는 저지연 장컨텍스트 어텐션을 위한 멀티 칩렛 메모리 중심 아키텍처인 AMMA 를 제안합니다. AMMA 는 GPU 컴퓨팅 다이 (compute dies) 를 HBM-PNM 큐브로 대체하여 이용 가능한 메모리 대역폭을 약 2 배 증가시켜 메모리 바운드 어텐션 워크로드를 더 잘 처리할 수 있도록 합니다. 이 대역폭을 비례적인 성능 향상으로 전환하기 위해 우리는 (i) 최소 전력 및 면적 예산 하에서 디코드 어텐션 시 큐브별 내부 대역폭을 완전히 활용하는 로직 다이 마이크로아키텍처, (ii) 2 단계 하이브리드 병렬화 스킴, 그리고 (iii) 칩 내 다이 간 통신 과부하를 줄이는 재순서화 집단 흐름 (reordered collective flow) 을 도입합니다. 또한 큐브별 컴퓨팅 전력 및 칩 내 D2D 링크 대역폭에 대한 설계 공간 탐색을 수행하여 하드웨어 설계자에게 실행 가능한 지침을 제공합니다. 평가 결과, AMMA 는 NVIDIA H100 대비 15.5 배 낮은 어텐션 지연 시간과 6.9 배 낮은 에너지 소비를 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0