본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 17. 10:40

ANEForge: Apple Neural Engine에서 직접 연산을 수행하기 위한 Python 패키지

요약

ANEForge는 CoreML을 거치지 않고 Apple Neural Engine(ANE)을 직접 프로그래밍할 수 있는 Python 패키지입니다. 융합 연산자를 사용하여 ANE의 성능을 극대화하며, 추론뿐만 아니라 학습의 순전파 및 역전파까지 지원합니다.

핵심 포인트

  • CoreML 없이 ANE에 직접 접근하여 저지연 연산 가능
  • 58개의 융합 연산자와 19개의 네이티브 브리지 연산자 지원
  • 추론을 넘어 학습의 순전파, 역전파, 옵티마이저 업데이트 수행
  • int8, int4 및 희소 가중치 스트리밍 지원
  • macOS 14 이상 Apple Silicon 환경 최적화

ANEForge는 CoreML 없이도 모든 최신 Apple 기기에 탑재된 고정 기능 신경 가속기(fixed-function neural accelerator)인 Apple Neural Engine (ANE)을 직접 프로그래밍할 수 있는 Python 패키지입니다. 실제 운영 환경에서 이 엔진은 CoreML을 통해서만 접근할 수 있으며, CoreML은 이를 하나의 스케줄링 옵션으로 취급합니다. 즉, 어떤 설정도 ANE를 필수적으로 요구하지 않으며, 모델은 대신 CPU나 GPU에서 조용히 실행될 수 있습니다. ANEForge는 58개의 융합 연산자(fused operators)와 19개의 네이티브 브리지 연산자(native bridge operators)로 구성된 지연 텐서 그래프(lazy tensor graph)를 단일 ANE 프로그램으로 컴파일합니다. 이 프로그램은 Apple의 내부 프레임워크와 동일한 ANE 데몬(daemon) 및 커널-드라이버 스택을 통해 전달됩니다. 추론(inference)을 넘어, 이 패키지는 엔진의 네이티브 융합 어텐션(fused attention)에 접근하고, int8, int4 및 희소 가중치(sparse weights)를 스트리밍하며, 디코더(decoder)와 옵티마이저(optimizer) 상태를 단계 전반에 걸쳐 유지하고, 엔진 상에서 학습의 순전파(forward pass), 역전파(backward pass), 옵티마이저 업데이트를 실행합니다. 작은 융합 프로그램은 약 90us 내에 호출을 완료하며, 이는 엔진의 프로그램당 디스패치 하한선인 70us에 근접한 수치입니다. 사전 학습된 ResNet-18의 순전파는 엔드 투 엔드(end-to-end)로 0.33ms 내에 실행됩니다. ResNet-18, 문장 인코더(sentence encoder), 그리고 Vision Transformer는 프레임워크 참조값과 비교하여 엔드 투 엔드로 실행되며, Stable Diffusion U-Net을 통해 순전파를 검증합니다. ANEForge는 macOS 14 이상 환경의 Apple Silicon을 대상으로 합니다. 각 릴리스는 기록된 macOS 및 ANE-컴파일러 버전에 대해 검증됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0