arXiv논문2026. 05. 20. 16:34

재구성 가능한 컴퓨팅 과제: 거대 과학의 온라인 이벤트 선택을 위한 실시간 그래프 신경망 (Graph Neural Networks)

요약

본 연구는 거대 과학 실험의 실시간 이벤트 선택을 위해 AMD Versal VCK190 플랫폼에서 Graph Neural Networks(GNN)를 효율적으로 배포하는 방법을 제시합니다. FPGA 패브릭과 AI Engine 타일을 동시에 활용하는 반자동 설계 흐름을 통해, 기존 FPGA 전용 솔루션 대비 처리량을 53% 향상시키고 지연 시간을 7.15마이크로초로 최적화했습니다.

핵심 포인트

AMD Versal VCK190의 FPGA 패브릭과 AI Engine 타일을 결합한 하이브리드 아키텍처 활용
연산자 융합, 파티셔닝, 공간적 병렬화 등을 포함한 Python 기반 반자동 설계 흐름 개발
기존 대비 DSP 사용률을 99%에서 19%로 대폭 낮추면서 처리량은 53% 향상
7.15마이크로초의 초저지연 성능과 초당 294만 개의 이벤트 처리량 달성

그래프 신경망 (Graph Neural Networks)은 충돌 실험 (collider experiments)의 트리거 시스템 (trigger systems)에 점점 더 많이 채택되고 있으나, 엄격한 지연 시간 (latency) 및 처리량 (throughput) 제약으로 인해 임베디드 플랫폼 (embedded platforms)에 배포하는 데 어려움이 있습니다. 검출기 (detectors)가 더 높은 세밀도 (granularity)를 향해 나아감에 따라 추론 (inference)당 입력 수가 증가하고 있으며, FPGA 전용 솔루션은 리소스 병목 현상 (resource bottlenecks)에 직면하고 있습니다. 본 연구는 AMD Versal VCK190에서 FPGA 패브릭 (fabric)과 AI 엔진 (AI Engine) 타일을 모두 활용하여, Belle II 전자기 칼로리미터 (electromagnetic calorimeter) 하드웨어 트리거를 위한 동적 그래프 신경망 (Graph Neural Network)의 실시간 배포를 위한 엔드 투 엔드 (end-to-end) 데모를 제시합니다. 우리는 연산자 융합 (operator fusion), 파티셔닝 (partitioning), 매핑 (mapping), 공간적 병렬화 (spatial parallelization) 및 커널 수준 최적화 (kernel-level optimization)를 포함하는 Python 기반의 반자동 설계 흐름 (semi-automated design flow)을 개발했습니다. 우리의 설계는 7.15 마이크로초 (microseconds)의 엔드 투 엔드 지연 시간에서 초당 294만 개의 이벤트 (events per second) 처리량을 달성했습니다. FPGA 전용 베이스라인 (baseline)과 비교했을 때, 이는 AI 엔진 타일 (AI Engine tile) 사용률 29%에서 DSP 사용률을 99%에서 19%로 줄이면서 처리량을 53% 향상시킨 결과입니다. 배포를 검증하기 위해, 대화형 시각화 파이프라인 (interactive visualization pipeline)을 통해 물리적 데모 장치에서 추론 결과를 실시간으로 모니터링할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

재구성 가능한 컴퓨팅 과제: 거대 과학의 온라인 이벤트 선택을 위한 실시간 그래프 신경망 (Graph Neural Networks)

요약

핵심 포인트

댓글