본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 02:44

MemExplorer: 에이전트 추론을 위한 이종 메모리 설계 공간 탐색기

요약

본 논문은 급증하는 에이전트 기반 LLM 워크로드의 요구사항(용량 및 대역폭)을 충족하기 위해, 이종 가속기 시스템에 최적화된 메모리 아키텍처를 설계하는 방법론 'MemExplorer'를 제안합니다. MemExplorer는 온칩 SRAM부터 HBM, LPDDR 등 다양한 계층의 메모리 기술을 통합적으로 모델링할 수 있는 통일된 추상화를 제공하며, NPU 디자인(예: 행렬 엔진 크기)과 메모리 시스템 설계를 동시에 최적화합니다. 실험 결과에 따르면, MemExplorer는 에이전트 워크로드 전반에서 기존 NPU 대비 최대 2.3배의,

핵심 포인트

  • MemExplorer는 온칩 SRAM부터 HBM까지 다양한 계층의 이종 메모리 기술을 통합적으로 모델링하는 새로운 시스템 합성기입니다.
  • NPU 디자인(행렬 엔진 크기)과 메모리 시스템 설계를 동시에 최적화하여 처리량 및 전력 효율성을 극대화합니다.
  • 에이전트 워크로드 환경에서, MemExplorer는 기존 NPU 대비 최대 2.3배 높은 에너지 효율을 달성했습니다 (Prefill 설정).
  • 디코딩(Decode) 설정에서도 기존 NPU 대비 최대 1.93배 및 H100 대비 최대 2.72배의 전력 효율 향상을 입증했습니다.

최근 에이전트 기반 대규모 언어 모델(LLM) 워크로드의 급격한 증가는 메모리 용량과 대역폭에 대한 높은 요구를 야기하고 있습니다. 특히 LLM 추론 과정 중 Prefill 및 Decode와 같은 각 단계는 서로 다른 자원 요구사항을 가집니다. 이러한 배경 속에서, 업계는 NVIDIA의 Vera Rubin 플랫폼 사례처럼 이종(heterogeneous) 가속기들을 하나의 시스템으로 통합하는 방향으로 발전하고 있으며, 각 장치마다 고유한 메모리 아키텍처를 가지고 있습니다.

여기에 더해, 사용 가능한 메모리 기술의 스펙트럼이 넓어지고 있습니다. 온칩 SRAM (on-chip SRAM), HBM (High Bandwidth Memory), LPDDR, GDDR 같은 기존 기술 외에도 고대역폭 플래시(HBF: high-bandwidth flash)와 같은 신흥 옵션들이 등장하며, 각각 용량, 대역폭, 전력 소모 측면에서 상이한 트레이드오프를 제공합니다. 이처럼 방대하고 빠르게 진화하는 설계 공간 속에서, 워크로드 특성, NPU 디자인 차원, 그리고 메모리 시스템 설계 간의 복잡한 상호작용을 파악하는 것은 매우 어려운 과제입니다.

이러한 난제를 해결하기 위해, 본 연구는 이종 NPU 시스템을 위한 새로운 메모리 시스템 합성기인 MemExplorer를 제안합니다. MemExplorer의 핵심은 다음과 같습니다:

  1. 통합 추상화 (Unified Abstraction): 온칩 및 오프칩(off-chip) 등 다양한 계층에 걸쳐 존재하는 이종 메모리 기술들을 모델링할 수 있는 통일된 추상화를 제공합니다.
  2. 최적화 자동화: 단순히 메모리를 선택하는 것을 넘어, NPU의 디자인 요소(예: 행렬 엔진 크기, matrix engine size)와 효율적인 이종 메모리 시스템 설계를 동시에 결정하여 최적화합니다.
  3. 균형 잡힌 성능 확보: Prefilling 단계와 Decoding 단계에서 발생하는 처리량(throughput)과 전력 소모(power) 사이의 균형을 자동으로 맞춥니다.

실험 결과는 MemExplorer의 강력한 효율성을 입증했습니다. 에이전트 워크로드에 동일한 전력 예산(power budget)을 할당했을 때, MemExplorer는 기존 기준 NPU 대비 최대 2.3배 높은 에너지 효율을 달성했으며, Prefill 단독 설정에서는 H100 대비 무려 3.23배 높은 효율을 기록했습니다.

또한, 디코딩(Decode) 환경에서 동등한 성능 목표를 유지했을 경우에도, 기존 NPU 대비 최대 1.93배, 그리고 H100 대비 최대 2.72배의 전력 효율 향상을 추가로 입증하며 차세대 추론 가속기 설계에 중요한 이정표를 제시했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0