arXiv논문2026. 05. 12. 00:14

TREA: 객체 탐지 및 분류를 위한 저정밀도 시간 다중화, 자원 효율적인 엣지 가속기

요약

TREA는 객체 탐지 및 분류를 위해 설계된 자원 효율적인 엣지 AI 가속기입니다. 이 아키텍처는 저정밀도 시간 다중화(time-multiplexed) 방식을 채택하고, MSDF 시프트-앤드-애드 계산과 런타임 비트 절단을 활용하는 DQ-MAC 유닛을 통합했습니다. 이를 통해 기존 승산기 오버헤드를 제거하고 누산기 비트 폭을 줄여, 하드웨어 중복 없이 높은 처리량(최대 4배)과 에너지 효율성을 달성하여 실시간 엣지 비전 워크로드에 최적화되었습니다.

핵심 포인트

TREA는 객체 탐지 및 분류를 위한 저정밀도 시간 다중화 엣지 AI 가속기입니다.
핵심 기술은 MSDF 시프트-앤드-애드 계산과 런타임 비트 절단을 사용하는 DQ-MAC 유닛입니다.
DQ-MAC을 통해 하드웨어 중복 없이 사이클당 최대 4배의 처리량 향상(4x FxP4 또는 1x FxP8)이 가능합니다.
SHARP 전략은 SIMD 데이터 경로와 공동 설계되어 효율성을 극대화했습니다.
TREA는 기존 가속기 대비 지연 시간, 하드웨어 활용률, 에너지 효율성 측면에서 우수한 성능을 보였습니다.

본 논문은 엣지 비전 플랫폼의 엄격한 면적-전력-지연 제약 조건을 목표로 하는, 객체 탐지 및 분류를 위한 저정밀도 시간 다중화(time-multiplexed) 및 자원 효율적인 엣지 AI 가속기인 TREA를 제시합니다. 제안된 아키텍처는 가장 유의미한 비트부터 먼저 처리하는 방식(most-significant-digit-first, MSDF) 시프트-앤드-애드 계산과 런타임 비트 절단(run-time bit truncation)을 기반으로 하는 이중 정밀도 (4/8비트) SIMD 곱셈-누산기(DQ-MAC) 유닛을 통합합니다. 이를 통해 기존 승산기 오버헤드를 제거하고 누산기 비트 폭을 줄입니다. DQ-MAC은 사이클당 4x FxP4 또는 1x FxP8 연산을 지원하여 하드웨어 중복 없이 최대 4배의 처리량 향상을 달성합니다. 구조화된 하드웨어 인식 축소 가지치기(structured hardware-aware reductive pruning, SHARP) 전략은 SIMD 데이터 경로와 공동 설계되어 네

기존 고정 정밀도 및 비재구성 가속기 대비 지연 시간(latency), 하드웨어 활용률, 에너지 효율성 측면에서 상당한 개선을 보였으며, 이는 TREA가 실시간 엣지 비전 워크로드에 효과적인 솔루션임을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TREA: 객체 탐지 및 분류를 위한 저정밀도 시간 다중화, 자원 효율적인 엣지 가속기

요약

핵심 포인트

댓글