arXiv논문2026. 06. 16. 12:05

NeuronFabric: 로컬 Adam을 이용한 온칩(On-Chip) Transformer 학습을 위한 소프트웨어 참조 아키텍처

요약

NeuronFabric은 온칩(On-Chip) Transformer 학습을 위해 로컬 Adam 업데이트를 지원하는 소프트웨어 참조 아키텍처입니다. BF16W 구성을 통해 메모리 요구 사항을 줄여 FPGA 및 ASIC 구현에 최적화된 구조를 제안합니다.

핵심 포인트

로컬 Adam 업데이트를 통한 온칩 학습 아키텍처 제안
BF16W 구성을 통해 메모리 사용량을 절감하고 수치적 정확성 유지
FPGA 및 ASIC 하드웨어 구현을 위한 소프트웨어 참조 모델 제공
334K 파라미터 Transformer 모델로 메모리 효율성 및 성능 검증

공개적으로 문서화된 가속기 아키텍처들은 일반적으로 학습 연산(training computation)을 옵티마이저 상태 업데이트(optimizer-state updates)와 분리하거나, 외부 메모리 및 호스트 오케스트레이션(host orchestration)에 의존합니다. 본 논문은 로컬 Adam 업데이트를 통한 Transformer 학습의 향후 FPGA 및 ASIC 구현을 목적으로 하는 소프트웨어 참조 아키텍처인 NeuronFabric을 제시합니다. 완전한 C# 프로토타입은 외부 머신러닝 프레임워크 없이 순전파(forward pass), 역전파(backpropagation), 그리고 Adam 최적화(optimization)를 구현합니다. 목표는 하드웨어 구현 전 수치적 정확성(numerical correctness)과 메모리 요구 사항을 검증하는 것입니다. 평가된 모델은 Shakespeare 코퍼스에서 학습된 334K 파라미터 자기회귀(autoregressive) Transformer (d=88, H=4, f=264, L=4, vocab=256)입니다. BF16W 구성은 80K 샘플 이후 1.5426의 평가 손실(evaluation loss)을 달성하였으며, 이는 FP32 GPU 참조 모델의 1.5224와 비교되는 수치인 동시에 일관된 문자 수준(character-level) 텍스트를 생성합니다. 본 논문은 가중치(weights)는 BF16으로 저장하면서 Adam 옵티마이저 모멘트(moments)는 FP32로 유지하는 BF16W를 소개합니다. 이는 온칩(on-chip) 학습을 위한 메모리 요구 사항을 줄여줍니다. Adam 모멘트를 포함한 334K 파라미터 FP32 모델은 약 4.0 MB를 필요로 하며, 이는 Xilinx ZCU102 장치의 BRAM 용량과 일치합니다. BF16W 변형은 약 3.34 MB를 필요로 하여, 활성화(activation) 저장을 위한 메모리 여유 공간을 확보합니다. 우리는 이전 실험에서 관찰된 어휘 예산 제약(vocabulary-budget constraint)을 설명하고, BF16W의 메모리 절감 효과를 정량화하며, 다음 개발 단계로서 FPGA 학습의 개요를 서술합니다. 본 논문에는 FPGA 측정 결과는 포함되지 않았습니다. 본 출판물은 NeuronFabric 아키텍처의 향후 FPGA 및 ASIC 탐색을 위한 공개적인 아키텍처 공개 및 소프트웨어 참조 구현 역할을 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

NeuronFabric: 로컬 Adam을 이용한 온칩(On-Chip) Transformer 학습을 위한 소프트웨어 참조 아키텍처

요약

핵심 포인트

댓글