TransDot: 트랜스-정밀도 도트-곱 누산(DPA)을 위한 면적 효율적인 재구성 가능한 부동소수점 유닛 (FPU)을 제안합니다
요약
본 기술 기사는 트랜스-정밀도 도트-곱 누산(DPA) 연산을 위해 면적 효율적인 재구성 가능한 부동소수점 유닛(FPU), TransDot을 제안합니다. 기존의 FPU는 DPA를 지원하지 않아 높은 정밀도를 유지하면서 처리량에 병목 현상을 겪었으나, TransDot은 이를 해결하여 입력/출력 대역폭과 컴퓨팅 자원을 모두 활용할 수 있게 합니다. 이 디자인은 AMD Versal 같은 차세대 AI 엔진에 확장 가능한 배포가 가능함을 입증했습니다.
핵심 포인트
- TransDot은 트랜스-정밀도 도트-곱 누산(DPA)을 위한 면적 효율적인 재구성 가능한 FPU입니다.
- 기존의 FPU는 DPA를 지원하지 않아 높은 정밀도를 유지하는 연산에서 처리량 병목 현상을 겪었습니다.
- TransDot은 기존 대비 더 적은 면적으로 추가 파이프라인 스테이지를 제공하여 효율성을 높였습니다.
- 제안된 디자인은 AMD Versal과 같은 상용 FPGA 기반의 차세대 AI 엔진에 통합될 수 있습니다.
AMD Versal 장치와 같은 상용 FPGA는 저정밀 패킹된 SIMD 결합 곱셈-누산(FMA)을 활용하여 비례적인 처리량 증가를 달성하는 AI 엔진을 점점 더 통합하고 있습니다. 그러나 높은 정밀도로 누적함으로써 수치적 안정성을 유지하는 트랜스-정밀도 FMA(예: 두 FP16 숫자를 곱한 후 그 결과를 FP32 누산기에 더하는 것)는 가장 높은 정밀도를 가지면서 처리량이 낮은 연산에 의해 여전히 병목 현상을 겪고 있습니다. 도트-곱 누산(DPA)(예: 두 4개 요소의 FP8 벡터에 대해 도트-곱을 수행하고 그 결과를 FP32 누산기에 더하는 것)은 입력/출력 대역폭과 컴퓨팅 자원을 완전히 활용할 수 있습니다. FPnew와 같은 기존의 유연한 오픈 소스 FPU는 DPA를 지원하지 않으며 구현해
평균적으로 더 적은 면적과 FPnew 기준선 대비 추가적인 파이프라인 스테이지를 dot-product 모드에서 제공합니다. 이러한 결과는 TransDot의 면적 효율적인 디자인이 차세대 AMD Versal AI 엔진에 확장 가능한 배포가 가능함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기