인텔과 AMD, GPU 없이 x86 CPU AI 성능 향상 기술 공동 개발

요약

Intel과 AMD가 x86 CPU의 AI 연산 효율을 높이기 위한 새로운 사양인 ACE(Advanced Compute Extensions)를 공동 개발합니다. 이는 GPU 없이도 소규모 모델 및 지연 시간에 민감한 워크로드를 CPU에서 효율적으로 처리하는 것을 목표로 합니다.

핵심 포인트

ACE는 행렬 곱셈 전용 하드웨어를 추가하여 AVX10 대비 최대 16배의 연산 효율 제공
GPU와의 데이터 이동 병목 현상을 줄여 지연 시간 민감한 작업에 최적화
기존 AVX10 레지스터 구조를 유지하여 소프트웨어 변경 최소화
INT8부터 FP32까지 다양한 머신러닝 데이터 형식 지원
엣지 컴퓨팅 및 단일 사용자 애플리케이션에서의 전력 효율성 증대

출처 1: https://www.techspot.com/news/112846-intel-amd-unveil-new-x86-standard-make-cpus.html

첫 번째 소식: AI 하드웨어 논의가 오랫동안 GPU에 집중되어 CPU는 마치 뒷전으로 밀려난 듯한 느낌이었습니다. 이제 인텔과 AMD는 새로운 CPU 중심 사양을 통해 이러한 균형을 어느 정도 되찾으려 하고 있습니다. 이는 두 회사 모두 특정 유형의 머신 러닝 워크로드에서 CPU가 더 큰 역할을 할 여지가 여전히 있다고 보고 있음을 시사합니다.

ACE(Advanced Compute Extensions)라고 불리는 이 사양은 x86 프로세서에서 AI 연산을 더욱 효율적으로 처리하는 방법을 제시합니다. 대규모 학습 환경에서 GPU를 대체하는 것을 목표로 하는 것이 아니라, 소규모 모델, 지연 시간에 민감한 작업, 그리고 GPU를 사용할 수 없거나 오버헤드가 너무 커서 사용할 가치가 없는 시스템에 초점을 맞추고 있습니다.

마지막 부분은 생각보다 중요합니다. CPU와 GPU 간의 데이터 왕복에는 비용이 발생합니다. 특히 빠른 응답이 필요하거나 하드웨어 사양이 제한적인 워크로드의 경우, 이러한 데이터 왕복이 병목 현상을 일으킬 수 있습니다. CPU에서 작업을 처리하면 이러한 문제를 완전히 해결할 수 있습니다.

기술적인 측면에서 ACE는 대부분의 AI 연산의 핵심인 행렬 곱셈을 중심으로 설계되었습니다. CPU는 항상 이러한 종류의 연산을 처리할 수 있었지만, 효율성은 그다지 높지 않았습니다. 업계에서는 이러한 격차를 해소하기 위해 AVX 명령어를 사용해 왔지만, AVX 명령어는 행렬 연산이 많이 필요한 워크로드를 고려하여 설계된 것은 아닙니다.

ACE는 다른 접근 방식을 취합니다. 기존 AVX10 레지스터 구조는 유지하면서 행렬 연산을 위한 전용 하드웨어를 추가합니다. 이러한 설계 덕분에 개발자는 완전히 새로운 데이터 형식이나 프로그래밍 모델을 사용할 필요가 없습니다. 확장된 기능은 여전히 512비트 입력을 사용하므로 기존 소프트웨어 및 하드웨어 워크플로에 최소한의 변경만으로 통합할 수 있습니다.

성능 향상은 명령어 수준에서 가장 분명하게 나타납니다. 동일한 입력 벡터 집합에 대해 ACE는 AVX10보다 최대 16배 더 많은 연산을 수행할 수 있습니다. 이는 애플리케이션 실행 속도가 갑자기 16배 빨라진다는 것을 의미하지는 않습니다. 실제 성능은 다양한 요인에 따라 달라지기 때문입니다. 하지만 이는 명령어를 더욱 효율적으로 사용한다는 것을 의미하며, 결과적으로 전력 소비를 줄이고 메모리 대역폭에 대한 부담을 완화할 수 있습니다.

전력 효율성은 실질적인 이점 중 하나입니다. GPU는 강력하지만 에너지 소모가 심하고, 데이터 이동으로 인한 오버헤드가 발생합니다. 반면, 이러한 연산을 직접 처리하는 CPU는 특히 엣지 컴퓨팅 환경이나 단일 사용자 애플리케이션에서 더 경제적일 수 있습니다.

ACE 설계의 또 다른 중요한 특징은 일관성입니다. 이 사양은 구현에 구애받지 않도록 설계되어 PyTorch나 TensorFlow와 같은 프레임워크를 사용하는 개발자에게 편리함을 제공합니다. 개발자는 다양한 AVX 지원을 위해 서로 다른 코드 경로를 관리하는 대신, 단일하고 일관된 목표를 향해 나아갈 수 있습니다.

ACE 확장 기능은 INT8, INT32, FP8, FP16, FP32, BF16 등 머신러닝에 사용되는 다양한 데이터 형식을 지원합니다. 또한, AVX10에는 포함되지 않은 Open Compute Project MX 블록 스케일링 형식에 대한 네이티브 지원도 제공합니다. 이러한 유연성은 특히 추론 측면에서 모델 요구 사항이 얼마나 다양해졌는지를 반영합니다.

이기종 컴퓨팅과 관련해서는 더욱 미묘한 이점도 있습니다. NPU는 점점 보편화되고 있지만, 아직 표준화 단계에는 이르지 못했습니다. 워크로드를 NPU로 옮기는 과정에서 하드웨어에 따라 여러 가지 문제가 발생할 수 있습니다. ACE는 절대적인 효율성보다 속도와 단순성이 더 중요한 경우, 특정 작업을 CPU에서 처리할 수 있는 방법을 제공합니다.

하지만 이러한 기술 발전에도 불구하고 대규모 AI 학습에서 GPU의 역할은 변함이 없습니다. 이러한 시스템은 여전히 특수 가속기에 크게 의존하고 있습니다. ACE가 시사하는 바는 CPU가 이 분야에서 계속 발전할 수 있다는 것입니다. 적절한 아키텍처 개선을 통해 CPU는 과거보다 더 광범위한 AI 워크로드를 처리할 수 있으며, 경우에 따라서는 더욱 깔끔하게 처리할 수도 있습니다.

※ 퀘이사존 공식 기사가 아닌 해외 뉴스/기사를 번역한 것으로, 퀘이사존 견해와 주관은 포함되어 있지 않습니다.

AI 자동 생성 콘텐츠

원문 바로가기

인텔과 AMD, GPU 없이 x86 CPU AI 성능 향상 기술 공동 개발

요약

핵심 포인트

댓글