arXiv논문2026. 06. 09. 11:27

HLS를 통한 도메인 특화 FPGA Hardblock 프로그래밍: RTL Blackbox 접근 방식

요약

도메인 특화 FPGA의 하드블록을 HLS 환경에서 효율적으로 프로그래밍하기 위한 새로운 방법론을 제안합니다. RTL 블랙박스를 C-레벨 연산자로 추상화하여 컴파일러 수정 없이도 하드웨어 가속기를 최적화할 수 있는 접근 방식을 다룹니다.

핵심 포인트

HLS를 통한 커스텀 FPGA 하드블록 타겟팅 방법론 제시
RTL 블랙박스를 스케줄링 가능한 C-레벨 연산자로 추상화
AMD Vitis HLS 및 VTR 툴체인을 통한 성능 검증
수동 RTL 구현 대비 높은 생산성 및 효율성 달성

도메인 특화 Field Programmable Gate Array (FPGA) 아키텍처는 인공지능 (AI) 및 머신러닝 (ML) 워크로드를 가속화하기 위해 Tensor Slice와 같은 특화된 하드블록 (hardblocks)을 점점 더 많이 통합하고 있습니다. 이러한 효율성 이점에도 불구하고, 설계자들이 일반적으로 이러한 하드블록에 접근하기 위해 수동적인 Register-Transfer Level (RTL) 통합에 의존하기 때문에 이러한 아키텍처를 프로그래밍하는 것은 여전히 어렵습니다. 본 논문은 고수준 합성 (HLS) 도구가 C/C++ 코드에서 직접 커스텀 FPGA 하드블록을 타겟팅할 수 있도록 하는 컴파일러 불가지론적 (compiler-agnostic) 방법론을 제시합니다. 아키텍처 하드블록은 명시적인 레이턴시 (latency) 및 개시 간격 (initiation-interval) 계약을 가진 RTL 블랙박스 (blackbox) 추상화를 사용하여 스케줄링 가능한 C-레벨 연산자 (operators)로 노출되며, 이를 통해 HLS 스케줄러가 수동적인 RTL 오케스트레이션 없이 특화된 하드웨어를 중심으로 최적화할 수 있도록 합니다. 외부 IP 통합을 위한 전통적인 HLS 블랙박스 사용과 달리, 우리의 접근 방식은 블랙박스를 아키텍처 추상화로 취급하여 컴파일러 수정 없이도 커스텀 FPGA 하드블록을 타겟팅하는 C-레벨 연산자의 확장 가능한 구성을 가능하게 합니다. 우리는 AMD Vitis HLS 및 Verilog-to-Routing (VTR) 툴체인을 사용하여 Tensor Slice 기반 FPGA 아키텍처에서 제안된 흐름을 평가합니다. 다양한 행렬 크기에 걸쳐, 제안된 C-Blackbox 흐름을 사용하여 생성된 설계는 동작 모델 기반의 HLS 베이스라인보다 낮은 면적-지연 곱 (area-delay product)을 달성하는 동시에, 수동으로 작성된 RTL 구현보다 실질적으로 더 높은 생산성 조정 효율성 (productivity-adjusted efficiency)을 제공합니다. 이러한 결과는 도메인 특화 FPGA 아키텍처가 경쟁력 있는 하드웨어 효율성을 유지하면서도 HLS를 통해 접근 가능해질 수 있음을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

HLS를 통한 도메인 특화 FPGA Hardblock 프로그래밍: RTL Blackbox 접근 방식

요약

핵심 포인트

댓글