arXiv논문2026. 06. 10. 11:15

Heap을 극복하라: AXI4MLIR에서의 Zero-Copy 데이터 이동

요약

AXI4MLIR 프레임워크에서 발생하는 CPU-가속기 간의 불필요한 데이터 복사 오버헤드를 해결하기 위한 제로 카피(zero-copy) 기술을 제안합니다. MLIR dialect 확장을 통해 DMA 매핑 메모리에 직접 버퍼를 할당함으로써 데이터 이동을 최적화합니다.

핵심 포인트

AXI4MLIR 내 힙 할당 메모리에서 DMA 버퍼로의 복사 오버헤드 식별
MLIR accel dialect 확장을 통한 제로 카피 데이터 이동 구현
메인 메모리 데이터 이동량을 최대 2배까지 절감
가속기 활용도(utilization) 향상 및 런타임 성능 최적화

커스텀 하드웨어 가속기(custom hardware accelerators)가 머신러닝 워크로드의 핵심이 됨에 따라, 선형 대수 커널(linear algebra kernels)에서 가속기 성능을 극대화하기 위한 효율적인 데이터 전송이 매우 중요해지고 있습니다. 호스트-가속기 드라이버 코드의 자동 생성을 위한 Multi-Level Intermediate Representation (MLIR) 컴파일러 프레임워크의 확장인 AXI4MLIR은, 제로 카피(zero-copy)가 아닌 CPU-가속기 데이터 이동으로 인해 상당한 런타임 오버헤드(runtime overhead)를 발생시킵니다. 호스트에서 가속기로 전송되는 동안, 데이터는 힙 할당(heap-allocated) 메모리 버퍼에서 연속적인 DMA(Direct Memory Access) 매핑 버퍼로 복사됩니다. 본 연구는 이 복사 과정을 불필요한 스테이징(staging) 작업으로 식별하고, 제로 카피(zero-copy) 데이터 이동을 통해 이를 제거합니다. 이 최적화는 AXI4MLIR에서 도입된 MLIR 방언(dialect)인 accel을 확장하며, DMA 매핑 메모리 내에 버퍼를 직접 할당하는 로워링(lowering) 지원을 구현함으로써 스테이징 복사를 생략합니다. 우리는 구성 가능한 행렬-행렬 곱셈(matrix-matrix multiplication) 가속기를 사용하여 제안된 방식을 평가하였으며, 제로 카피(zero-copy) 최적화가 메인 메모리 데이터 이동을 최대 2배까지 줄여 전체적인 가속기 활용도(utilization)를 높인다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Heap을 극복하라: AXI4MLIR에서의 Zero-Copy 데이터 이동

요약

핵심 포인트

댓글