arXiv논문2026. 04. 28. 20:41

Edge 디바이스를 위한 보장된 정규화를 갖는 하드웨어 효율적 Softmax 및 Layer Normalization

요약

본 논문은 트랜스포머 모델에서 높은 하드웨어 비용을 차지하는 Softmax와 Layer Normalization(LayerNorm) 연산을 Edge 디바이스에 최적화한 아키텍처를 제안합니다. 기존 연구들이 순위 기반 작업에 초점을 맞춘 것과 달리, 본 설계는 점수 기반 NLP 및 생성형 AI 응용 프로그램에 필수적인 '보장된 정규화'를 유지하면서 하드웨어 효율성을 극대화했습니다. Verilog HDL로 구현된 이 아키텍처는 기존 대비 면적을 크게 줄이면서도 높은 정확도를 유지하는 것으로 입증되었습니다.

핵심 포인트

트랜스포머 모델의 Softmax 및 LayerNorm 연산은 Edge 디바이스에서 주요 하드웨어 병목 지점이다.
본 연구는 점수 기반(score-oriented) 작업에 필수적인 '보장된 정규화'를 유지하는 데 중점을 두었다.
제안된 아키텍처는 Verilog HDL로 구현되었으며, Samsung 28nm CMOS 공정에서 합성되었다.
Softmax와 LayerNorm 모두 기존 대비 면적을 최대 11배 및 14배까지 줄이는 높은 하드웨어 효율성을 달성했다.

Transformer 모델에서 비-GEMM(비-General Matrix Multiplication) 연산 -- 특히 Softmax 와 Layer Normalization (LayerNorm) -- 은 그 비선형적인 성질로 인해 하드웨어 비용의 대부분을 차지합니다. 이를 해결하기 위해 이전 근사 연구들은 주로 순위 기반 (rank-oriented) 작업에 초점을 맞추었으며, 이는 분류 작업에는 적합합니다. 그러나 Edge 자연어 처리 (NLP) 응용 프로그램과 Edge 생성형 AI 는 주로 점수 기반 (score-oriented) 작업에 따라 평가되므로, 정규화가 보장된 비-GEMM 연산이 필수적입니다. 우리는 Edge 디바이스를 위한 하드웨어 효율적 Softmax 와 LayerNorm with Guaranteed Normalization 을 제안합니다. 우리의 설계는 정규화 (Softmax: $ extstyle extstyle\sum p = 1$, LayerNorm: $σ= 1$) 를 유지하면서 하드웨어 효율적인 근사 방법을 사용합니다. 우리 아키텍처는 Verilog HDL 로 기술되었으며, Samsung 28nm CMOS 공정으로 합성되었습니다. 정확도 평가에서 우리는 최소한의 저하로 높은 정확도를 달성했습니다: GLUE +0.07%, SQuAD -0.01%, perplexity -0.09%. 구현 결과는 우리 아키텍처가 작음을 보여줍니다: Softmax 는 $942,μm^2$, LayerNorm 은 $1199,μm^2$. 최첨단 기술과 비교할 때 우리는 각각 면적을 최대 11 배 및 14 배 줄이는 성과를 거두었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Edge 디바이스를 위한 보장된 정규화를 갖는 하드웨어 효율적 Softmax 및 Layer Normalization

요약

핵심 포인트

댓글