AI 에이전트 시대를 위한 TPU 8세대: 학습과 추론에 특화된 두 가지 아키텍처
요약
구글은 AI 에이전트 시대의 요구사항을 충족시키기 위해 8세대 TPU를 공개했습니다. 이 세대는 목적에 따라 두 가지 아키텍처, 즉 학습 전용 'TPU 8t'와 추론(Inference) 전용 'TPU 8i'로 나뉩니다. TPU 8t는 최대 9,600개 칩 규모의 슈퍼포드에서 121 ExaFlops급 컴퓨팅 성능을 제공하며, 학습 사이클을 월 단위에서 주 단위로 단축시킵니다. 반면, TPU 8i는 메모리 대역폭과 온칩 SRAM 확대를 통해 에이전트 간 복잡한 상호작용(Swarming)에 최적화되어 낮은 지연 시간으로 고성능 추론을 실
핵심 포인트
- TPU 8t는 최대 9,600개 칩 규모의 슈퍼포드에서 121 ExaFlops급 컴퓨팅 성능을 제공하며, 이전 세대 대비 컴퓨팅 성능이 약 3배 향상되어 학습 사이클 단축에 기여합니다.
- TPU 8i는 메모리 벽(Memory Wall) 문제를 해결하기 위해 288GB의 고대역폭 메모리와 온칩 SRAM을 대폭 늘려, 에이전트 기반 추론 워크로드의 지연 시간을 최소화했습니다.
- 두 칩 모두 범용성이 높지만, TPU 8t는 컴퓨팅 집약적 학습에, TPU 8i는 낮은 지연 시간이 필수적인 복잡한 상호작용(Agentic Inference)에 특화되어 최적의 효율성을 제공합니다.
- TPU 8t에는 Virgo Network와 JAX/Pathways 소프트웨어를 결합하여 최대 백만 개 칩까지 근접 선형 스케일링을 지원하며, 높은 가동 시간(Goodput)을 위한 RAS 기능이 강화되었습니다.
구글은 AI 에이전트 시대의 폭발적인 수요에 대응하기 위해 8세대 TPU를 공개했습니다. 이 세대는 단일 아키텍처가 아닌, 목적별로 특화된 두 가지 칩으로 구성됩니다: 학습(Training) 전용 TPU 8t와 추론(Inference) 전용 TPU 8i입니다.
이러한 분리는 AI 에이전트가 문제를 추론하고 다단계 워크플로우를 실행하는 '에이전틱 시대(Agentic Era)'의 새로운 요구사항을 반영합니다. TPU는 이미 Gemini와 같은 선도적인 파운데이션 모델(Foundation Model) 구동에 핵심 역할을 해왔으며, 8세대 TPU는 이러한 학습, 서비스 제공(Serving), 에이전트 워크로드 전반에서 규모(Scale), 효율성(Efficiency), 그리고 역량을 극대화합니다.
🚀 TPU 8t: 초거대 모델 학습을 위한 파워하우스 (The Training Powerhouse)
TPU 8t는 최첨단 모델 개발 주기를 '수개월'에서 '수주'로 단축시키는 데 중점을 두었습니다. 이 칩은 최고 수준의 컴퓨팅 처리량(Compute Throughput)과 확장성(Scale-up Bandwidth), 전력 효율성을 균형 있게 갖추도록 설계되었습니다.
- 압도적인 규모: TPU 8t 슈퍼포드는 최대 9,600개 칩까지 스케일업하며, 두 페타바이트(PB)의 공유 고대역폭 메모리를 제공합니다. 이전 세대 대비 인터칩 대역폭이 두 배로 증가하여 가장 복잡한 모델도 거대한 단일 메모리 풀을 활용할 수 있게 합니다.
- 최적화된 데이터 처리: 10배 빨라진 스토리지 접근과 TPUDirect를 통합하여 데이터를 TPU 내부로 직접 끌어들이는 구조로, 시스템의 전 과정(End-to-end) 활용도를 극대화합니다.
- 거의 선형적인 확장성 (Near-linear Scaling): 새로운 Virgo Network와 JAX 및 Pathways 소프트웨어 스택을 통해 단일 논리 클러스터에서 최대 백만 개 칩까지 근접 선형 확장을 지원합니다.
- 안정성과 가용성: 단순 성능 향상을 넘어, 수만 개의 칩에 대한 실시간 원격 측정(Telemetry), 오류 발생 시 자동 우회 경로 설정, 인적 개입 없이 하드웨어를 재구성하는 광학 회로 스위칭(Optical Circuit Switching, OCS) 등 포괄적인 RAS(Reliability, Availability and Serviceability) 기능을 통합하여 높은 '유효 처리량(Goodput)'을 목표로 합니다.
🧠 TPU 8i: 에이전트 기반 추론 엔진 (The Reasoning Engine)
에이전틱 시대에는 사용자가 질문하고, 작업을 위임하며, 결과를 얻는 복잡한 상호작용이 필수적입니다. TPU 8i는 여러 전문 에이전트들이 복잡하게 협력(Swarming)하는 과정을 처리하도록 재설계되었습니다.
- '메모리 벽' 극복: 프로세서가 유휴 상태로 머무르는 것을 방지하기 위해, TPU 8i는 288GB의 고대역폭 메모리와 384MB의 온칩 SRAM을 결합했습니다. 이는 이전 세대 대비 3배 증가한 용량으로, 모델의 활성 작업 집합(Active Working Set) 전체를 온칩에 유지할 수 있게 합니다.
- 효율적인 CPU 통합: 커스텀 Axion Arm 기반 CPU 호스트 수를 두 배로 늘리고, 비균일 메모리 아키텍처(NUMA)를 활용하여 시스템 전반의 성능을 최적화했습니다.
- MoE 모델 지원 강화: 최신 Mixture of Expert (MoE) 모델에 대응하기 위해 인터커넥트(ICI) 대역폭을 19.2 Tb/s로 두 배 늘렸습니다. 새로운 Boardfly 아키텍처는 네트워크 직경을 50% 이상 줄여, 시스템이 낮은 지연 시간의 하나의 응집력 있는 단위처럼 작동하도록 보장합니다.
- 지연 시간 최소화: 온칩 Collectives Acceleration Engine (CAE)을 도입하여 전역 연산(Global Operations)을 오프로드함으로써, 온칩 지연 시간을 최대 5배까지 줄여 에이전트 간의 반응 속도를 극대화했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기