arXiv논문2026. 04. 28. 08:23

근사 행렬 분해를 활용한 TinyML용 CNN 가속기 공동 설계

요약

본 연구는 자원 제약이 엄격한 TinyML 환경에서 CNN 추론의 지연 시간을 최적화하기 위한 새로운 프레임워크를 제시합니다. 이 프레임워크는 근사 행렬 분해(Approximate Matrix Decomposition)를 활용하여 주어진 CNN 모델을 하드웨어 구현에 맞게 최적화하며, 재학습이나 미세 조정 과정 없이도 작동하는 것이 특징입니다. 유전 알고리즘 기반의 접근 방식을 통해 FPGA 타겟용 곱셈기 없는 CNN 가속기를 설계하고, 기존 방식 대비 높은 효율성을 입증했습니다.

핵심 포인트

TinyML 환경은 엄격한 자원 및 에너지 제약으로 인해 지연 시간 최적화가 필수적이다.
본 연구는 근사 행렬 분해를 활용하여 훈련 데이터셋 접근 없이 모델을 최적화하는 프레임워크를 제안한다.
유전 알고리즘 기반의 탐색 과정을 통해 FPGA 타겟에 적합한 곱셈기 없는 CNN 가속기를 설계한다.
제안된 방법은 기존 심층 배열 기반 FPGA 가속기에 비해 평균 33%의 지연 시간 개선과 낮은 정확도 손실(1.3%)을 달성했다.

엄격한 자원 제약 하에서의 로컬 및 온디바이스 추론으로의 패러다임 전환은 타인티 머신 러닝 (TinyML) 도메인을 대표합니다. TinyML 의 주요 목표는 엄격한 자원, 에너지, 지연 시간 제약 하에서 지능을 소형 저비용 장치에 통합하는 것입니다. 그러나 이러한 장치들의 초저자원 제약 특성은 추론 실행 시간을 증가시킬 수 있으며, 이는 지연 시간이 중요한 응용 분야에서 해가 될 수 있습니다. 동시에, TinyML 응용 프로그램들은 종종 민감한 데이터와 연관되어 있습니다. 따라서 이러한 데이터가 이용 불가능하거나, 독점적이거나, 민감할 때 훈련 샘플에 의존하는 지연 시간 최적화 접근 방식은 실현 불가능하며, 훈련 데이터셋에 대한 액세스 없이 직접 사전 학습된 모델에 적용될 수 있는 최적화 접근 방식이 시급함을 강조합니다. 비용이 많이 드는 곱셈을 쉬프트 (shift) 와 덧셈과 같은 더 하드웨어 효율적인 연산으로 대체하는 것이 추론 지연 시간을 줄이는 효과적인 방법으로 제안되어 왔습니다. 그러나 훈련 후 2 의 거듭제곱 (Po2) 접근 방식은 드물며, 많은 경우 허용할 수 없는 정확도 손실을 초래합니다. 본 연구에서는 엄격한 제약을 준수하고 재학습 또는 미세 조정 단계를 전혀 필요로 하지 않는 하드웨어 구현을 최적화하기 위해 주어진 CNN 에 근사 행렬 분해를 적용하는 프레임워크를 제안합니다. 유전 알고리즘 기반의 프레임워크는 FPGA 타겟을 위한 다양한 행렬 분해와 곱셈기 없는 CNN 가속기 설계를 탐색합니다. 다양한 TinyML 벤치마크에 대한 포괄적인 평가는 우리의 프레임워크가 엄격한 정확도와 자원 제약을 충족하는 지연 시간 최적화 구현을 생성하는 효율성을 입증하며, 전형적인 심층 배열 기반 FPGA 가속기에 비해 평균 33% 의 지연 시간 개선과 평균 1.3% 의 정확도 손실을 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

근사 행렬 분해를 활용한 TinyML용 CNN 가속기 공동 설계

요약

핵심 포인트

댓글