AMD와 Intel, ACE를 통해 협력: x86 CPU를 위한 16배 AI 부스트
요약
AMD와 Intel이 x86 생태계의 파편화를 막기 위해 협력하여 AI Compute Extensions(ACE)를 공개했습니다. ACE는 새로운 2D 타일 레지스터와 외적 곱셈 알고리즘을 통해 기존 AVX10 대비 최대 16배의 AI 연산 밀도를 제공합니다.
핵심 포인트
- AMD와 Intel의 공동 협력체인 EAG를 통한 x86 명령어 표준화
- 2D 타일 레지스터 도입으로 사이클당 1,024번의 곱셈 수행 가능
- 기존 AVX10 대비 최대 16배의 AI 연산 밀도 향상
- 엣지 컴퓨팅 및 실시간 추론 등 GPU 사용이 비효율적인 환경 최적화
수십 년 만에 처음으로 AMD와 Intel이 동일한 명령어 집합 언어로 대화하고 있습니다. x86 Ecosystem Advisory Group (EAG)을 통해 협력 중인 두 경쟁 칩 제조사는 AI Compute Extensions (ACE)를 공개했습니다. 이는 오늘날의 AVX10 명령어 대비 최대 **16배의 AI 연산 밀도 (AI compute density)**를 제공하는 통합 매트릭스 명령어 세트입니다.
ACE는 두 회사가 ARM의 성장세를 저지하고 수년간 x86을 괴롭혀온 명령어 집합 파편화 (instruction-set fragmentation)를 제거하기 위해 2024년에 공동 설립한 산업 기구인 EAG의 첫 번째 주요 결과물입니다. 그 결과, Intel이나 AMD 제품인지에 관계없이 재컴파일 없이 모든 x86 CPU에서 동일한 AI 코드를 실행할 수 있도록 약속하는 표준화된 매트릭스 가속 아키텍처가 탄생했습니다.
ACE가 가져오는 변화
ACE의 핵심은 각각 32비트 값의 16x16 매트릭스를 담을 수 있는 **8개의 새로운 2D 타일 레지스터 (2D Tile Registers)**를 도입한다는 점입니다. 이 타일 레지스터는 기존의 AVX10 벡터 레지스터 (vector registers)와 나란히 배치되지만, 데이터를 한 번에 한 차원씩 처리하는 대신 단일 사이클 내에서 전체 2D 매트릭스 연산을 처리합니다.
핵심 혁신은 외적 곱셈 (outer-product multiplication) 알고리즘입니다. 각 클록 사이클마다 ACE는 두 개의 16x4 입력 매트릭스를 처리하여 프로세싱 엘리먼트 (processing elements)의 16x16 그리드 전체에 걸쳐 내적 (inner products)을 계산합니다. 이는 동일한 정밀도로 실행되는 최적화되지 않은 AVX10 구현이 사이클당 단 64번을 수행하는 것과 비교했을 때, 사이클당 1,024번의 곱셈을 의미합니다. 16배의 밀도 이득은 바로 이러한 효율성 개선에서 직접적으로 나옵니다.
x86 Ecosystem Advisory Group이 발표한 기술 백서에 따르면, ACE는 AVX10과 원활하게 통합되어 이른바 "마찰이 적고 어디에나 존재하는 매트릭스 가속 능력"을 제공합니다. 소프트웨어는 기존의 AVX10 벡터 명령어를 사용하여 데이터를 전처리 및 포맷팅한 다음, 무거운 매트릭스 연산 작업을 ACE에 넘겨줄 수 있습니다.
이것이 중요한 이유
행렬 곱셈 (Matrix multiplication)은 현대 AI의 수학적 중추입니다. 소규모 온디바이스 (on-device) 모델부터 거대 언어 모델 (LLM)에 이르기까지, 모든 신경망은 연산 사이클의 대부분을 행렬 연산에 소비합니다. 오늘날 CPU는 이러한 워크로드에 AVX10과 같은 범용 SIMD (Single Instruction, Multiple Data) 명령어에 의존하고 있으며, 이는 GPU의 텐서 코어 (tensor cores)나 전용 NPU (Neural Processing Unit)와 비교했을 때 막대한 성능 손실을 초래합니다.
ACE의 목표는 GPU를 대체하는 것이 아닙니다. TIRIAS Research의 분석가 Jim McGregor가 Network World에 전한 바와 같이, "CPU가 GPU/AI 가속기보다 더 효율적이 될 수는 없습니다." ACE가 하는 역할은 GPU를 사용하는 것이 비실용적인 시나리오, 즉 임베디드 시스템 (embedded systems), 엣지 컴퓨팅 (edge computing), 얇고 가벼운 노트북, 또는 GPU 활성화 오버헤드가 낭비가 될 수 있는 실시간 추론 (real-time inference) 작업에서 CPU가 AI 워크로드를 효율적으로 처리할 수 있도록 하는 것입니다.
데이터 센터의 경우, 에너지 효율성 이득이 상당할 수 있습니다. 현재 많은 추론 워크로드가 CPU에서 실행되고 있는데, 이는 GPU로 데이터를 이동시키는 데 발생하는 지연 시간 (latency) 비용이 정당화되지 않기 때문입니다. ACE는 이러한 CPU 기반 추론을 실질적으로 훨씬 더 전력 효율적으로 만듭니다.
x86 EAG의 첫 번째 주요 승리
x86 생태계 자문 그룹 (x86 Ecosystem Advisory Group, EAG)은 Intel과 AMD 플랫폼의 호환성과 경쟁력을 보장함으로써 ARM이 x86의 시장 점유율을 잠식하는 것을 방지한다는 명확한 임무를 가지고 2024년에 결성되었습니다. EAG가 형성되기 전, x86을 타겟으로 하는 개발자들은 때때로 Intel과 AMD CPU를 위해 별도의 코드 경로를 배포해야 했습니다. 이는 ARM의 통합 아키텍처 (unified architecture)가 겪지 않았던 파편화 문제였습니다.
ACE는 APX (Advanced Performance Extensions)를 표준화하기 위한 이전의 공동 작업에 기반을 두고 있습니다. 이러한 이니셔티브들은 2000년대 초반 최초의 x86-64 사양이 개발된 이후, 두 x86 거물 사이에서 이루어진 가장 중요한 협력을 의미합니다.
“두 회사의 파트너십이 마침내 결실을 맺는 것을 보게 되어 기쁩니다.”라고 McGregor는 덧붙였습니다. “예상대로, 명령어 세트 (instruction set)의 변경 사항이 양사의 제품 라인에 반영되기까지는 한두 세대가 걸릴 수 있습니다. 하지만 함께 협력하는 것은 x86 아키텍처 (architecture)에 있어 거대한 이점입니다.”
ACE는 언제 출시될까?
아직 네이티브 ACE 지원을 갖춘 CPU는 발표되지 않았습니다. 사양 (specification)은 완성되었고 백서 (whitepaper)도 발행되었지만, 하드웨어 구현은 통상적으로 명령어 세트 정의보다 2~3년 뒤처집니다. 업계의 추측에 따르면 AMD의 Zen 7 아키텍처 (2028년경 예상)와 이에 대응하는 Intel의 Nova Lake 또는 그 이후 세대가 유력한 후보로 지목됩니다.
소프트웨어 활성화 (Software enablement)는 이미 진행 중입니다. x86 EAG는 NumPy 및 SciPy와 같은 주요 과학 계산 라이브러리(scientific computing libraries)는 물론, AI 프레임워크인 PyTorch 및 TensorFlow에 ACE 지원을 추가하기 위한 작업이 진행 중임을 확인했습니다. 이는 첫 번째 ACE 지원 하드웨어가 출하될 시점에는 소프트웨어 스택 (software stack)이 준비되어 있을 것임을 의미합니다.
분석가들의 견해
이번 행보는 개발자 커뮤니티로부터 폭넓은 환영을 받고 있습니다. 6월 18일 해당 사양이 트렌드에 올랐던 HackerNews에서 개발자들은 통합된 접근 방식을 찬양하며, 표준화된 행렬 명령어 (matrix instructions)가 과학 계산 및 머신러닝 (ML) 워크로드에서 플랫폼별 최적화 (platform-specific optimizations)의 필요성을 줄여줄 수 있다고 언급했습니다.
백서 (whitepaper)에서는 “ACE는 행렬 곱셈 (matrix multiply) 성능, 확장성 (scalability), 그리고 에너지 효율성을 크게 향상시킵니다”라고 명시하며, 이를 x86 생태계의 미래를 위한 장기적인 투자로 규정했습니다. 또한 “x86의 광범위한 채택과 높은 성능은 개발자들에게 이상적인 선택이 되며, ISA에 ACE가 추가됨으로써 x86 생태계의 미래는 더욱 강화될 것입니다”라고 밝혔습니다.
더 큰 그림
더 큰 그림
ACE 발표는 칩 산업에 있어 매우 중요한 시점에 이루어졌습니다. AI 워크로드 (AI workloads)가 전례 없는 컴퓨팅 수요를 견인하고 있으며, CPU 제조사들은 특화된 AI 하드웨어를 추가하기 위해 경쟁하고 있습니다. Apple의 M-시리즈 칩은 이미 뉴럴 엔진 (Neural Engine)을 포함하고 있으며, Qualcomm의 Snapdragon X Elite는 전용 AI 가속기 (AI accelerator)를 탑재하고 있습니다. x86이 AI 시대에 경쟁력을 유지하기 위해서는 표준화된 행렬 명령어 (matrix instructions)가 선택 사항이 아닌 필수 요소입니다.
ACE에 대한 AMD와 Intel의 협력은 두 회사 모두 이러한 현실을 인식하고 있음을 시사합니다. 공통 명령어 세트 (instruction set)에 합의함으로써, 그들은 ARM이 누려온 핵심적 이점인 통합 소프트웨어 호환성 (unified software compatibility)을 제거합니다. 만약 ACE가 그 약속을 이행한다면, 차세대 x86 노트북, 서버 및 엣지 디바이스 (edge devices)는 별도의 외장 GPU (discrete GPU) 없이도 AI 워크로드를 훨씬 더 빠르게 처리할 수 있게 될 것입니다.
TekMag 관련 소식: GLM-5.2: Open-Source AI Model Beats GPT-5.5 for 1/6 the Cost — 오픈 소스 AI가 계속해서 지형을 재편하고 있습니다. 그리고 Qualcomm CEO: AI Agents Will Replace Apps — 차세대 AI를 구동하기 위한 하드웨어 경쟁에 관한 소식입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기