Arm 및 ExecuTorch 0.7: 대중에게 생성형 AI를 가져다주는 것

요약

Arm은 KleidiAI와 ExecuTorch 0.7 베타를 통해 온디바이스 생성형 AI(GenAI)의 접근성을 혁신적으로 높이고 있습니다. 핵심은 Armv8.2 아키텍처에 도입된 SDOT(Signed Dot Product) 명령어입니다. 이 명령어를 활용하여 LLM의 핵심 연산인 행렬 곱셈을 Int8/Int4와 같은 낮은 비트 정밀도로 효율적으로 가속화함으로써, 최신 플래그십 기기뿐만 아니라 3~5년 된 구형 장치나 Raspberry Pi 같은 다양한 Edge 디바이스에서도 고성능 GenAI 경험을 구현할 수 있게 되었습니다. ExecuTorch는 이러한 성능 최적화를 개발자에게 코드 통합 장벽 없이 제공합니다.

핵심 포인트

SDOT 명령어 도입: Armv8.2 아키텍처에 추가된 Signed Dot Product 명령어는 LLM의 핵심 연산인 행렬 곱셈을 Int8/Int4와 같은 낮은 비트 정밀도로 가속화하는 기반이 됩니다.
광범위한 기기 지원: 이 기술은 최신 플래그십 스마트폰뿐만 아니라 3~5년 된 구형 장치, Raspberry Pi 등 광범위한 하드웨어 범위에 걸쳐 고성능 GenAI를 가능하게 합니다.
ExecuTorch와 KleidiAI의 역할: ExecuTorch 0.7 베타는 KleidiAI 기능을 기본으로 활성화하여 개발자가 별도의 코드 변경 없이도 최적화된 AI 성능을 쉽게 통합할 수 있도록 지원합니다.
개발자 접근성 향상: XNNPack, MediaPipe 등 기존 프레임워크에 KleidiAI를 통합함으로써, 개발자는 복잡한 커스텀 튜닝 과정 없이 즉시 사용 가능한 'turn-key' 최적화 성능을 얻게 됩니다.

Arm 의 최근 SME2 발표 이후 Arm KleidiAI 의 역할은 Arm 의 다음 세대 AI 를 위한 가속화 계층으로서의 역할을 더욱 명확해지고 있습니다. XNNPack, MediaPipe, MNN, ONNX Runtime, 그리고 심지어 llama.cpp 와 같은 널리 사용되는 Edge AI 프레임워크에 KleidiAI 를 통합함으로써 개발자가 코드 변경 없이도 상당한 성능 향상을 제공하고 있습니다. 이 기반은 곧 출시될 ExecuTorch 0.7 베타에서 KleidiAI 가 기본으로 활성화되도록 하여 최신 Arm CPU 아키텍처를 기반으로 한 장치뿐만 아니라 기존에 구축된 다양한 세대폰의 광범위한 기지에도 자동 가속을 가져다줍니다.

Android 및 크로스플랫폼 개발자—첫 번째 또는 세 번째—는 ExecuTorch 와 XNNPack 를 통해 KleidiAI AI 성능 최적화에 즉시 액세스할 수 있습니다. 결과는? 더 빠른 모델 스타트업, 낮은 지연 시간, 얇은 메모리 발자국—and 코드 통합 장벽 없음. 이전에는 커스텀 튜닝이 필요했던 것은 이제 바로 사용할 준비가 된 turn-key 성능입니다. 이 효율성은 새로운 가능성을 열었습니다—not just 최신 고급 장치뿐만 아니라 훨씬 더 넓은 하드웨어 범위에.

모바일 장치에서 생성형 AI (GenAI) 를 실행할 때, 최신 플래그십 스마트폰에 강력한 CPU, GPU, NPU 가 장착되어 있다는 것을 상상하기 쉽습니다. 하지만 만약 우리가 대규모 언어 모델 (LLM) 을 실행하는 것과 같은 GenAI 경험을 3 년, 4 년 또는 심지어 5 년 된 장치에도 가져올 수 있다고 말씀드리자면 어떨까요? 아니면 Raspberry Pi 5 에도?

아니요, 이것은 이제 더 이상 비전이지만 실용적인 현실입니다. Arm CPUs 에서 2015 년부터 사용 가능한 Arm SDOT CPU 기능 덕분에.

SDOT (Signed Dot Product) 명령어는 Armv8.2 아키텍처 및 이후 CPU 에 도입되어 8 비트 signed integer 벡터의 효율적인 점적 연산을 가능하게 합니다. 다음 이미지는 Arm CPUs 에서 사용할 수 있는 하나의 SDOT 명령어의 동작을 설명합니다:

위와 같이, 이 명령어는 왼쪽 (LHS) 과 오른쪽 (RHS) 벡터 레지스터에서 대응하는 4 개의 int8 요소의 점적으로서 각각 32 비트 정수 출력을 생성합니다.

이 명령어는 Int8 또는 Int4 와 같은 더 낮은 비트 정밀도 포맷을 사용할 때, LLM 의 핵심 계산 작업인 행렬 곱셈 루틴을 가속화하는 데 사용될 수 있습니다. 이러한 연산은 일반적으로 왼쪽 행렬의 개별 행과 오른쪽 행렬의 대응하는 열 사이의 많은 점적 연산을 포함합니다.

SDOT 명령어는 이미 다양한 장치에 걸쳐 광범위하게 지원되어 GenAI 사용 사례가 훨씬 더 큰 스마트폰 대중에게 도달할 수 있는 문을 여었습니다. 오늘 기준으로 Arm CPUs 는 약 30 억 개의 Arm 기반 장치에 포함되어 있으며—대부분의 사용자가 강력한 온디바이스 GenAI 경험을 가능하게 합니다. 사실, 모든 장치가 이 명령어를 지원합니다.

ExecuTorch 덕분에 우리는 이제 Llama 3.2 와 같은 모델을 Android 장치 및 Raspberry Pi 5 와 같은 Edge 장치에서 효율적으로 실행할 수 있습니다.

올해는 Int4 행렬 곱셈 성능을 SDOT 명령어를 활용하여 최적화하는 데 집중했습니다, 목표는

AI 자동 생성 콘텐츠

원문 바로가기

Arm 및 ExecuTorch 0.7: 대중에게 생성형 AI를 가져다주는 것

요약

핵심 포인트

댓글