Cerebras의 하이프 사이클(Hype Cycle)을 조금 더 책임감 있게 바라보기

요약

Cerebras의 웨이퍼 스케일 칩이 LLM 및 생성형 AI 인프라에 특화되어 있음을 분석합니다. 이 기술은 높은 토큰 처리량을 제공하지만, 로보틱스나 자율 주행과 같이 실시간 물리 제어와 엣지 배포가 중요한 AI 컴퓨팅 영역에는 적합하지 않을 수 있음을 지적합니다.

핵심 포인트

Cerebras 칩은 LLM 학습 및 추론에 최적화된 설계임
초당 토큰 수(TPS) 중심의 처리량 성능에 집중함
로보틱스 등 실시간 물리 제어 분야와는 요구 사항이 다름
AI 컴퓨팅 시장은 LLM 외에도 매우 다양한 세부 분야가 존재함

Cerebras 하이프 사이클에서 놓치고 있다고 생각되는 한 가지 차이점은, Cerebras가 보편적인 "모든 AI"를 위한 칩 이야기가 아니라, 주로 LLM / 생성형 AI (Generative AI) 인프라에 관한 이야기라는 점입니다. 이것이 반드시 Cerebras에 대한 비판은 아닙니다. 그들의 웨이퍼 스케일 (Wafer-scale) 접근 방식은 진정으로 흥미로우며, 대규모 모델 학습 (Training) 및 추론 (Inference)을 위한 설계는 매우 매력적입니다. Cerebras 자체의 공개 추론 자료는 주로 Llama, Qwen, GLM, GPT-OSS와 같은 오픈 LLM에 집중된 애플리케이션을 다룹니다. 추론 지표는 초당 토큰 수 (Tokens per second)로 표현되는데, 이는 근본적으로 로보틱스 (Robotics)나 산업 제어 (Industrial-control) 프레임워크라기보다는 언어 모델 / 생성형 추론 프레임워크에 가깝습니다.

어떤 종류의 AI 컴퓨팅인가?
하지만 "AI 컴퓨팅 (AI compute)"은 하나의 차별화되지 않은 단일 시장이 아닙니다. LLM 추론은 AI 컴퓨팅의 한 부류일 뿐입니다. 로보틱스 (Robotics), 자율 주행 차량 (Autonomous vehicles), 드론 (Drones), 산업 제어 (Industrial controls), 실시간 비전 (Real-time vision), 임베디드 인지 (Embedded perception), 비디오 파이프라인 (Video pipelines), 그리고 센서 퓨전 (Sensor-fusion) 시스템은 매우 다른 부류의 AI 컴퓨팅입니다. 따라서 Cerebras의 자체 자료를 통해 볼 때, 그들의 칩셋은 JEPA 스타일의 월드 모델 (World Models)이나 다른 포스트 트랜스포머 (Post-transformer) 아키텍처와 같이 LLM 이후에 올 기술들에 최적화되어 있지는 않은 것으로 보입니다. 그러한 시스템들은 단순히 "토큰을 얼마나 빨리 생성할 수 있는가?"만을 묻지 않습니다. 그들은 종종 전력 범위 (Power envelope), 엣지 배포 (Edge deployment), 내구성 (Ruggedization), 지연 시간 결정론 (Latency determinism), 카메라/레이더/라이다 (Camera/radar/lidar) 통합, 피드백 루프 (Feedback loops), 안전 인증 (Safety certification), 그리고 실시간 물리 제어 (Real-time physical control)를 중요하게 여깁니다.

반면, Cerebras의 자체 CS-3 메시징은 시스템을 "최신 대규모 AI 모델"의 가속화에 초점을 맞추어 정의하며, 테스트 데이터는 Llama 2, Falcon 40B, MPT-30B 및 멀티모달 모델(Multimodal models) 등에서 가져왔으며, 이 역시 초당 토큰 수(Tokens/second) 방식의 처리량(Throughput)으로 측정되었습니다.

칩 계층 구조 (The Chip Hierarchy)
이 지점이 바로 하드웨어의 차별성이 중요한 부분입니다. 특화된 ASIC(Application-Specific Integrated Circuit)은 보통 가장 좁은 범위의 베팅입니다. 워크로드(Workload)가 칩과 일치한다면 극도로 효율적일 수 있지만, 그 효율성은 전문화에서 비롯됩니다. Cerebras는 단일 용도의 좁은 ASIC보다 더 넓은 범위를 다루는 것처럼 보이지만, 여전히 데이터센터의 대규모 모델 학습(Training) 및 추론(Inference)에 훨씬 더 집중되어 있습니다. 반면 NVIDIA GPU는 덜 전문화되어 있지만, LLM, 비전(Vision), 로보틱스(Robotics), 시뮬레이션(Simulation), 자율 시스템(Autonomous systems), 엣지 AI(Edge AI) 및 산업용 애플리케이션을 포함한 AI 워크로드 전반에 걸쳐 훨씬 더 광범위하게 유용합니다. 따라서 문제는 단순히 Cerebras가 NVIDIA보다 "더 나은가" 혹은 "더 못한가"가 아닙니다. 문제는 우리가 AI 하드웨어 시장의 어느 부분을 이야기하고 있는가 하는 점입니다.

NVIDIA에 도전할 것인가?
이것이 바로 제가 전장(Battlefield)을 명시하지 않은 채 Cerebras가 "NVIDIA에 도전할 것"이라고 말할 때 사람들이 주의해야 한다고 생각하는 이유입니다. 무엇에서 NVIDIA에 도전한다는 말입니까? 고속 LLM 추론? 대규모 모델 학습? 데이터센터 생성형 AI(Generative AI) 워크로드? 그것이 훨씬 더 타당하고 구체적인 주장입니다. Cerebras는 대규모 언어 모델 학습에 특화된 연구 결과물을 발표하고 홍보해 왔으며, 독립적인 벤치마킹 문헌 또한 LLM 학습 및 추론 성능 측면에서 Cerebras WSE를 평가하고 있습니다.

필요한 구분
요점은 Cerebras가 과도하게 홍보(overhyped)되고 있다는 것이 아닙니다. 요점은 Cerebras가 AI의 특정 영역에서 중요하다는 것이며, 그 구분이 명확해져야 한다는 것입니다. Cerebras는 특히 시장이 더 빠르고 저렴한 LLM 추론 (inference)에 계속 보상을 제공한다면, LLM 인프라 (infrastructure) 분야에서 매우 진지한 플레이어가 될 수 있습니다. 하지만 이것이 비(non)-LLM AI 분야 전반에 걸쳐 동일한 위치에 있다는 것을 의미하지는 않습니다. 현재의 하이프 사이클 (hype cycle)은 "LLM"과 일반적인 "AI" 컴퓨팅 (compute)을 하나로 혼동하는 경향이 있으며, 이는 하드웨어 논의를 덜 유용하고 불분명하게 만듭니다. 따라서 궁극적으로 Cerebras에 대한 투자는 AI의 미래 형태에 대한 광범위한 베팅이라기보다, 현재의 LLM 인프라에 대한 베팅에 더 가깝습니다. 그것은 좋은 베팅일 수 있지만, 사람들은 그것이 어떤 종류의 베팅인지 이해해야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Cerebras의 하이프 사이클(Hype Cycle)을 조금 더 책임감 있게 바라보기

요약

핵심 포인트

댓글