본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 13:44

O-POPE: 최소한의 버퍼링 오버헤드를 갖춘 고주파 파이프라인 외적 기반 GEMM 가속

요약

O-POPE는 부동 소수점 연산 장치(FPU) 파이프라인 레지스터를 버퍼로 재사용하여 GEMM 가속의 오버헤드를 최소화하는 새로운 외적 엔진입니다. 높은 동작 주파수와 산술 활용도를 동시에 달성하여 기존 가속기 대비 성능과 에너지 효율을 개선했습니다.

핵심 포인트

  • FPU 파이프라인 레지스터를 버퍼로 재사용하여 오버헤드 감소
  • 12nm FINFET 공정에서 1GHz 동작 및 2% 미만의 버퍼 면적 달성
  • 최대 99.97%의 높은 FPU 활용도 기록
  • 기존 가속기 대비 성능 1.33배, 에너지 효율 8% 향상

일반 행렬 곱셈 (General matrix multiply, GEMM)은 현대 머신러닝 (ML) 워크로드의 실행 시간과 에너지 소비 모두에서 지배적인 비중을 차지하며, 하드웨어 효율성에 점점 더 큰 압박을 가하고 있습니다. 양자화 (Quantization)가 연산 및 데이터 이동 비용을 완화해주기는 하지만, 학습 (Training)과 같이 정확도에 민감한 작업은 여전히 더 높은 정밀도의 부동 소수점 (Floating-point) 형식을 필요로 합니다. 기존의 부동 소수점 GEMM 가속기들은 동작 주파수 (Operating frequency), 산술 활용도 (Arithmetic utilization), 그리고 버퍼링 오버헤드 (Buffering overhead) 사이에서 트레이드오프 (Trade-off) 문제에 직면해 있습니다. 본 연구에서는 부동 소수점 연산 장치 (Floating-point unit, FPU) 파이프라인 레지스터를 버퍼로 재사용함으로써 높은 활용도, 낮은 오버헤드, 그리고 빠른 동작 주파수를 동시에 달성하는 확장 가능한 외적 (Outer-product) 엔진인 O-POPE를 제안합니다. 이 솔루션은 출력 고정형 (Output-stationary) 외적 실행의 데이터 재사용 이점을 활용하며, 12 nm FINFET 기술에서 2048-MACs 구성 기준 2% 미만의 버퍼 면적으로 1 GHz (0.72 V) 동작을 가능하게 합니다. 평가 결과, O-POPE는 최첨단 부동 소수점 GEMM 가속기들과 비교했을 때 최대 99.97%의 FPU 활용도를 달성하였으며, 성능 (1.33배), 성능 밀도 (Performance density) 9% 향상, 그리고 에너지 효율 (Energy efficiency) 8% 향상을 보여주었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0