M100: 범용 AI 컴퓨팅을 위한 데이터플로우 아키텍처
요약
AI 기술 발전과 함께 범용 AI 컴퓨팅 수요가 증가하고 있습니다. 기존 GPGPU는 유연하지만 효율성과 비용 면에서 한계가 있으며, DSA는 특정 작업에만 국한되는 문제가 있습니다. Li Auto의 M100은 이러한 문제를 해결하기 위해 개발된 데이터플로우 병렬 아키텍처입니다. M100은 컴파일러-아키텍처 공동 설계를 통해 계산뿐 아니라 시간과 공간을 넘나드는 데이터 이동까지 최적화합니다. 특히 캐싱(caching) 의존도를 크게 낮추고, 텐서(tensor)를 기본 데이터 요소로 사용하여 효율성과 확장성을 높였습니다. M100은자
핵심 포인트
- M100은 자율주행(AD), LLMs 등 다양한 AI 추론 작업에 최적화된 데이터플로우 아키텍처입니다.
- 컴파일러-아키텍처 공동 설계를 통해 데이터 이동까지 통합적으로 관리하여 효율성을 극대화했습니다.
- 캐싱 의존도를 낮추고 컴파일러/런타임이 관리하는 데이터 스트림을 활용해 시스템 복잡도와 비용을 절감했습니다.
- 텐서(tensor)를 기본 데이터 요소로 삼아 범용 AI 컴퓨팅 능력을 입증했으며, GPGPU 대비 우수한 성능을 보였습니다.
AI 기술의 급속한 발전으로 인해 범용 인공지능(AI) 컴퓨팅 아키텍처에 대한 수요가 폭발적으로 증가하고 있습니다. 기존의 GPU 기반 시스템은 다양한 AI 워크로드를 처리할 수 있지만, 효율성과 비용 측면에서 한계가 존재합니다.
특정 목적에 최적화된 도메인 특화 아키텍처(DSA)는 특정 작업에서는 뛰어난 성능을 보이지만, 광범위한 애플리케이션으로 확장하거나 빠르게 변화하는 AI 환경에 적응하기 어렵습니다. 이에 리 오토(Li Auto)가 개발한 M100은 자율주행(AD), 대규모 언어 모델(LLMs) 등 핵심 영역에 초점을 맞춘 고성능의 비용 효율적인 아키텍처입니다.
M100의 핵심은 데이터플로우 병렬 아키텍처를 채택했다는 점입니다. 이는 컴파일러와 하드웨어가 공동 설계되어 계산뿐만 아니라, 시간과 공간을 가로지르는 '데이터 이동'까지 체계적으로 관리합니다. 이 접근 방식은 시스템 성능 향상과 동시에 하드웨어 복잡도 및 비용 절감이라는 두 마리 토끼를 잡았습니다.
특히 M100은 기존 캐싱(caching) 구조에 대한 의존도를 크게 낮췄습니다. 텐서 계산은 컴파일러와 런타임이 관리하는 데이터 스트림을 통해 컴퓨팅 요소 및 온/오프칩 메모리로 직접 흐르기 때문에, 캐시 기반 시스템보다 높은 효율성과 확장성을 확보합니다.
M100은 AI 워크로드의 공통점을 고려하여 '텐서(tensor)'를 기본 데이터 요소로 설정했습니다. 이 아키텍처는 UniAD (자율주행) 및 LLaMA (LLMs)와 같은 다양한 추론 애플리케이션에서 범용 AI 컴퓨팅 능력을 입증했으며, 벤치마크 결과 GPGPU 대비 높은 활용도를 보이며 미래 AI 컴퓨팅의 유망한 방향을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기