arXiv논문2026. 05. 25. 14:24

DAE4HLS: 명시적 디커플링을 통한 고수준 합성 (High-Level Synthesis)의 메모리 수준 병렬성 (Memory-Level

요약

DAE4HLS는 고수준 합성(HLS)에서 메모리 수준 병렬성을 극대화하기 위해 요청과 응답을 명시적으로 분리하는 새로운 프로그래밍 모델을 제안합니다. 이를 통해 기존 HLS가 처리하기 어려웠던 복잡한 메모리 접근 패턴을 가진 대규모 데이터셋 워크로드의 성능을 획기적으로 개선합니다.

핵심 포인트

DAE(Decoupled Access-Execute) 패러다임을 통한 메모리 병렬성 해제
요청(Requests)과 응답(Responses)의 명시적 디커플링 모델 제안
AMD Vitis HLS 툴체인 및 AXI 인터페이스와의 호환성 입증
불규칙한 워크로드에서 기존 대비 10-79배의 속도 향상 달성

고수준 합성 (High-level synthesis, HLS)은 버스트 (bursts)로 전환 가능한 순차적 접근 (sequential accesses)이나, 스크래치패드 (scratchpads)에 저장 가능한 작은 데이터셋에 대한 메모리 접근과 같이 단순한 메모리 접근 패턴에 대해서는 성능이 우수합니다. 이는 HLS가 단순한 접근 패턴 덕분에 메모리 수준 병렬성 (memory-level parallelism)이 사소하게 풍부하거나, 작은 데이터셋 덕분에 지연 시간 (latency)이 낮은 '낮게 매달린 과일 (low-hanging fruit, 쉬운 대상)'을 가속화하는 데에만 국한되도록 만듭니다. 대규모 데이터셋에서 더 복잡한 접근 패턴을 가진 애플리케이션 또한 가속화의 혜택을 받을 수 있으며, 특히 HLS가 약속하는 설계 및 검증 노력의 감소로부터 큰 이득을 얻을 수 있습니다. 본 논문에서는 HLS를 위한 디커플드 액세스-실행 (decoupled access-execute, DAE) 패러다임인 DAE4HLS를 제시합니다. 우리는 요청 (requests)과 응답 (responses)을 명시적으로 디커플링 (decoupling)하기 위한 새로운 프로그래밍 모델을 제안하며, 이는 컴파일러에 의해 자동으로 제공될 수 없는 메모리 수준 병렬성 (memory-level parallelism)을 해제합니다. 우리는 DAE4HLS 패러다임을 상용 AMD Vitis HLS 툴체인에 적용하여, 기존의 AXI 스트림 (AXI stream) 및 AXI 버스트 (AXI burst) 인터페이스가 명시적 디커플링을 위해 재사용될 수 있음을 보여줍니다. 나아가 우리는 이 패러다임을 정적 스케줄링 (statically scheduled) HLS에 비해 불규칙한 워크로드 (irregular workloads)를 처리하는 데 더 적합한 동적 HLS (dynamic-HLS) 프레임워크에 적용합니다. 우리는 명시적 디커플링에 대한 지원이 성능을 향상시키며 총 10-79$ imes$의 속도 향상을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

DAE4HLS: 명시적 디커플링을 통한 고수준 합성 (High-Level Synthesis)의 메모리 수준 병렬성 (Memory-Level

요약

핵심 포인트

댓글