Intel과 AMD의 새로운 ACE CPU 확장 기능, x86에 효율적인 AI 지향 명령어 세트 도입 — 새로운 설계로 행렬 곱셈의 전력 및

요약

Intel과 AMD가 x86 프로세서에서 AI 연산 효율을 높이기 위한 ACE CPU 확장 기능 사양을 공개했습니다. ACE는 행렬 곱셈 전용 실리콘을 활용하여 기존 AVX10 대비 연산량을 대폭 늘리고 전력 효율을 개선합니다.

핵심 포인트

ACE는 행렬 곱셈 전용 실리콘을 추가하여 전력 효율과 성능을 최적화함
AVX10 대비 동일 입력 벡터 기준 최대 16배 더 많은 연산 수행 가능
PyTorch, TensorFlow 등 ML 프레임워크를 위한 단일 코드 경로 제공
INT8부터 FP32까지 다양한 데이터 타입 및 MX 블록 스케일링 지원

"AI 모델을 실행한다"는 말에 대해 듣는 대부분의 내용은 어떤 종류의 GPU를 포함하지만, 모든 AI 작업이 해당 하드웨어에 적합한 것은 아닙니다. 더 작은 모델이나 단일 사용자 지연 시간 민감형(latency-sensitive) 작업은 GPU로 데이터를 주고받는 오버헤드를 피할 수 있기 때문에 대신 CPU에서 실행함으로써 이점을 얻을 수 있습니다. 또한 처음부터 GPU를 사용할 수 없거나, 성능이 제한적인 미약한 내장형(integrated) GPU만 있는 상황도 많습니다. Intel과 AMD는 최근 x86 프로세서에서 앞서 언급한 AI 작업들을 더 쉽고 전력 효율적으로 실행할 수 있게 해주는 ACE CPU 확장 기능의 전체 사양을 공개했습니다.

ACE는 기존의 AVX10 레지스터를 활용하면서 행렬 곱셈(matrix multiplication) 전용 실리콘을 추가하는 기술 표준을 제공합니다. 이는 여러 이점을 가져다주지만, 핵심적인 장점은 더 나은 전력 효율성, 더 쉬운 개발 및 최적화, 그리고 AVX의 512비트 입력을 활용할 수 있다는 점입니다. 후자의 경우 ACE 전용 입력을 사용할 필요가 없으므로 기존 설계와의 통합이 용이합니다.

행렬 곱셈은 AI 워크로드의 초석입니다. 숫자 테이블을 가져와 전체에 대해 곱셈-덧셈 루프를 실행하는 방식입니다. 이는 제한적인 속도이긴 하지만 거의 모든 CPU에서 항상 가능했습니다. 오늘날에도 이러한 루프를 실행하는 것은 x86의 AVX10 곱셈-누산(multiply-accumulate) 명령어를 활용하더라도 많은 전력을 소모합니다. AVX는 기술적으로 2D 행렬 연산 곱셈을 염두에 두고 설계되지 않았기 때문에, 이는 엄밀히 말하면 편법(hack)에 가깝습니다.

동일한 수의 입력 벡터에 대해, ACE는 AVX10과 비교하여 16배 더 많은 연산을 수행할 수 있습니다. 이것이 반드시 16배의 속도 향상을 의미하는 것은 아니라는 점에 유의하십시오. 속도 향상은 각각의 개별 구현 방식에 따라 달라질 것이기 때문입니다. 하지만 Intel과 AMD가 향후 설계에서 성능 향상을 위해 이 작업에 더 많은 실리콘(silicon)을 할당할 것이라고 기대하는 것은 합리적입니다. 또한, 각 ACE 명령어(instruction)가 그에 상응하는 AVX10 루프보다 더 많은 작업을 수행하므로, CPU 명령어 오버헤드(instruction overhead)가 줄어들고 즉각적으로 더 나은 RAM 대역폭(bandwidth) 사용이 가능할 잠재력이 있습니다.

이러한 이점은 단순히 동일한 작업을 위해 더 적은 명령어를 사용하는 수준을 훨씬 넘어섭니다. ACE는 구현에 구애받지 않는(implementation-agnostic) 방식을 지향합니다. 즉, 머신러닝 (ML) 프레임워크와 그 기반 라이브러리(PyTorch, TensorFlow)가 하드웨어 종류나 AVX 지원 수준에 따라 여러 변형을 가질 필요 없이, 단 하나의 코드 경로(code path)만 작성하면 된다는 것을 의미합니다.

ACE는 ML 연산에 사용되는 거의 모든 데이터 타입(INT8, INT32, FP8, FP16, FP32, BF16을 포함하되 이에 국한되지 않음)을 네이티브로 지원합니다. 또한 AVX10은 제공하지 못하는 Open Compute Project의 MX 블록 스케일링 형식(block-scaled formats)을 네이티브로 사용할 수 있습니다. 개발자들은 지금 당장 빠르게 처리해야 할 작업이 있을 때, 일부 NPU 전용 워크로드를 다시 CPU로 옮겨올 수도 있을 것입니다. 이러한 상황에서 각 NPU가 서로 다르다는 사실을 고려하지 않아도 된다는 점 또한 큰 이점인데, ACE가 x86 하드웨어 전반에 걸쳐 일관된 타겟을 제공하기 때문입니다.

최신 뉴스, 분석 및 리뷰를 피드에서 받아보려면 Google 뉴스에서 Tom's Hardware를 팔로우하거나, 저희를 선호 소스로 추가하세요.

Tom's Hardware의 최고의 뉴스와 심층 리뷰를 이메일로 직접 받아보세요.

Bruno Ferreira는 Tom's Hardware의 기고가입니다. 그는 개발자로서의 경력과 더불어 PC 하드웨어 및 각종 잡화 분야에서 수십 년의 경험을 쌓았습니다. 그는 세부 사항에 집착하며 자신이 좋아하는 주제에 대해 장황하게 늘어놓는 경향이 있습니다. 그렇지 않을 때는 보통 게임을 하거나 라이브 음악 공연 및 페스티벌에 참여하곤 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Intel과 AMD의 새로운 ACE CPU 확장 기능, x86에 효율적인 AI 지향 명령어 세트 도입 — 새로운 설계로 행렬 곱셈의 전력 및

요약

핵심 포인트

댓글