TNP헤드라인2026. 05. 05. 10:17

TPU 8 의 도입으로 구글이 생성형 AI 시스템을 더 잘 만들었으며, 단순히 더 커진 것이 아닙니다.

요약

구글은 TPU 8 도입을 통해 생성형 AI(GenAI) 학습과 추론 워크로드의 근본적인 차이를 인식하고, 이를 분리하여 최적화한 새로운 아키텍처를 선보였습니다. 기존에는 단일 설계가 두 가지 목적을 모두 처리하려 했지만, 구글은 'Sunfish' (학습용)와 'Zebrafish' (추론/추론용)이라는 서로 다른 전문 칩을 개발했습니다. 이러한 분리는 각 워크로드의 고유한 요구사항(메모리 용량, 대역폭, 네트워크 특성 등)에 맞춰 하드웨어 설계를 최적화하여 성능과 효율성을 극대화했음을 의미합니다.

핵심 포인트

GenAI 학습(Training)과 추론(Inference)은 컴퓨팅 및 네트워킹 요구사항이 근본적으로 다르므로 별도의 아키텍처로 분리되어야 한다.
구글은 'Sunfish' TPU 8t (학습용)와 'Zebrafish' TPU 8i (추론/추론용)이라는 두 가지 전문화된 칩을 개발하여 각 워크로드에 최적화했다.
최신 GenAI 가속기는 단순히 크기만 커지는 것이 아니라, 특정 작업(예: 저지연 추론 응답 시간)에 필요한 아키텍처적 차별화를 보여주고 있다.
TPU 8t는 네이티브 양자화 및 블록 규모 곱셈 이동 등을 통해 이전 세대 대비 컴퓨팅 성능을 크게 향상시켰다.

TPU 8 의 도입으로 구글이 생성형 AI 시스템을 더 잘 만들었으며, 단순히 더 커진 것이 아닙니다.

생성형 AI (GenAI) 학습과 추론 (inference) 이 매우 다른 컴퓨팅 및 네트워킹 생물이며, 매일 더 빠르게 분화되고 있다는 것을 알 수 있는 방법은 다음과 같습니다: 구글이 최근 Tensor Processing Unit(TPU) 설계에 대해 두 가지 워크로드 (workload) 를 위해 포크 (fork) 했습니다. 이는 TPU 시스템의 동일한 세대가 서로 진정한 아키텍처적 차이점을 보인 지 10 년 이상 된 첫 번째 사례입니다.

공정적으로 말하면, 구글은 2015 년부터 검색 엔진, 광고 mogul(대기업), 미디어 magnate(매거진 소유자) 및 현재 AI 모델 제작자로 활동하며 전문적이고 자체 개발된 AI 가속기를 도입해 왔습니다. 구글이 TPU 사업에 뛰어들었는 이유는 머신러닝 알고리즘을 CPU 나 GPU 를 사용하여 애플리케이션에 추가할 때 데이터센터 면적이 두 배가 된다는 것이 불가능했기 때문입니다. 하지만 많은 경우 이러한 다른 TPU 는 주로 AI 학습을 목표로 한 설계의 이진 분류 (bin sorts) 에 불과했으며, 하위 등급 부품은 추론 (inference) 을 위해 사용되었습니다. 모든 머신러닝은 생성형 AI 혼합 전문가 모델 (mixture of expert models) 의 처리보다 훨씬 단순했습니다.

Nvidia 의 2026 년 12 월 Groq 인수 $20 억과 Nvidia 공동 창업자이자 최고경영자 Jensen Huang 이 2026 년 3 월 GTC 회의에서 강조한 것처럼, 저지연 추론 응답 시간 (agentic AI 가 요구하는 것, 즉 대화형 봇이 사람들과 대화할 때 사용할 수 있는 배치 처리 방식과는 다른 것) 을 원한다면 토큰을 잘 씹어 먹는 것 (GPU 나 우리가 알고 있는 TPU) 과 토큰을 매우 빠르게吐出하고 다음 쿼리로 넘어가는 것이 필요합니다.

첫 번째 워크로드는 prefill 이며, prefill 을 수행할 수 있는 동일한 기계는 생성형 AI 학습 (GenAI training) 을 수행할 수도 있습니다. 이는 강화학습 및 다른 종류의 AI 모델 튜닝과 구별하기 위해 때때로 pre-training 으로 불립니다. 두 번째 워크로드는 decode 이며, 이는 토큰을 씹어 쿼리와 그 컨텍스트를 이해하거나 데이터 코퍼스 (corpus) 의 토큰 간의 연결 통계 그래프를 찾는 대신, 시스템이 생성형 AI 모델이 지원하는 어떤 모달리티 (modality) 에든 쿼리의 답변에 대한 토큰을吐出하는 것을 의미합니다.

prefill 과 decode 단계를 위해 아키텍처가 얼마나 다른지에는 서로 다른 의견이 있을 것입니다. 새로운 "Sunfish" TPU 8t 는 학습 및 추천 엔진 (Broadcom 의 도움으로 제작되어 위 왼쪽에 표시됨) 에 사용되며, 새로운 "Zebrafish" TPU 8i 는 추론 및 추론 (reasoning) 에 사용되며 (MediaTek 의 도움으로 제작되어 위 오른쪽에 표시됨), 이들은 서로 다른 아키텍처를 공유하지만 많은 구성 요소를 공유합니다. 정상적인 상황에서는 구글이 데이터센터 플레트 전체에 걸쳐 고유한 하드웨어로 용량 계획을 세우려 시도하지 않을 때, 더 많은 TensorCores 를 TPU 에 추가하고 적절한 양의 SparseCores 를 추가하며 새로운 Collectives Acceleration Engine 을 추가하고, 하나의 칩으로 만들고 일부 실리콘을 워크로드에 따라 어둡게 만들며 끝낼 수 있습니다.

GenAI 학습 및 추론 (그리고 각각의 TPU 8 칩이 처리하는 다른 워크로드) 은 처리 측면에서 서로 다른 요구사항을 가지고 있으며, SRAM 메모리 용량과 HBM 메모리 및 메모리 대역폭에 대해 매우 다른 요구사항을 가지고 있습니다. (Nvidia 가 잘 알고 있었듯이, 모든 것이 하나에 맞지 않습니다. 예를 들어, 학습과 추론을 위해 B200 GPU 와 추론을 위해 B300 을 제공했습니다.) 또한 GenAI 추론 및 학습은 매우 다른 네트워크 요구사항을 가지고 있으며, 이는 Google 이

TPU 8t 패키지는 두 개의 컴퓨팅 디, 상단에 있는 하나의 I/O 디, 그리고 I/O 디의 좌우에 있는 다른 칩릿 두 개와 각 컴퓨팅 디의 양쪽에 HBM3e – 이는 중요한 점이지만 HBM 4 는 아님 – 두 줄을 포함합니다. HBM3e 의 선택은 구글이 메모리에서 가격/성능 최적화를 하고 있다는 것을 의미합니다. HBM3e 스택은 12 개의 DRAM 칩 높이를 가지며 (아래 블록 다이어그램에는 오류가 있습니다), 이 여섯 개의 스택은 216 GB 의 용량과 6,528 GB/sec 의 대역폭을 제공합니다. Ironwood TPU 와 비교하면 Sunfish 8t 칩은 메모리가 12.5% 더 많지만 대역폭이 11.5% 낮아지므로 수율이 향상되고 비용을 줄이기 위해 더 느리게 작동한다는 것을 알 수 있습니다.

Sunfish TPU 8t 칩릿의 블록 다이어그램은 다음과 같습니다:

Sunfish 패키지는 SRAM 메모리가 128 MB 로, 패키지 내 각 코어 칩릿에는 64 MB 가 있습니다. 이는 Ironwood TPU v7e 와 동일한 패키지당 총합 SRAM 입니다. 우리는 이 SRAM 의 총합 대역폭을 알지 못합니다.

TPU 8t TensorCore 는 큰 wonking 벡터 유닛과 두 개의 행렬 수학 유닛을 가지지만, 위의 블록 다이어그램에서 눈에 띄지 않는 몇 가지 마이크로아키텍처 변화가 있습니다.

"TPU 8t 은 훈련을 위한 파워풀한 최적화 제품입니다," Vahdat 이 그의 키노트에서 설명했습니다. "우리는 MX 유닛 내부에 직접 블록 규모 곱셈을 이동함으로써 성능 능력을 재정의했습니다. 이 네이티브 양자화는 VPU 오버헤드를 제거하여 이전 세대 대비 퍼 포드당 컴퓨팅 성능을 거의 세 배로 제공합니다. 이는 모델 flops 활용의 절대적 한계를 대규모로 밀고, 프론티어 모델의 훈련 시간을 줄입니다. 이는 이제 Ironwood 대비 두 배의 대역폭을 제공하는 칩 간 인터커넥트 기술을 활용하며, 3D 토러스 토폴로지로 연결된 9,600 개의 TPU 를 확장합니다."

시스템 아키텍처를 너무 앞서서 이야기하지 마십시오. Sunfish 8t 소켓 안에는 각 칩릿당 하나의 TensorCore 와 칩당 두 개의 SparseCores 가 있어 총 네 개가 있습니다 – Ironwood 와 동일합니다. 우리는 Google 이 Sunfish 8t 칩으로 클록 속도를 우리가 추측한 Ironwood 클록 속도보다 42.6% 더 높은 2.2 GHz 근처로 올렸을지도 모른다고 생각합니다. 이는 많은 것 같지만, 멀티-칩릿 디자인으로 인해 구글은 사용하는 2 나노미터 프로세스의 수율을 높일 수 있으며, 디어 축소량을 사용하여 클록을 회전시키고 원초 성능을 늘리고 다른 튜크를 통해 더 많은 효과적인 성능 향상을 얻을 수 있습니다.

SparseCore 칩은 처음에는 사용자의 클래스에 걸쳐 추천을 위해 임베딩을 사용하는 추천 모델을 가속화하기 위해 설계되었습니다. Ironwood TPU 의 세 번째 세대 SparseCores 는 금융 및 과학 계산의 가속화를 위한 다양한 알고리즘이 인코딩되어 있으며, TPU 8t SparseCores 에 더 많은 기능이 있는지 알지 못하지만 그렇게 의심합니다.

우리는 TPU v4 에서 TPU v7e AI 가속기에 추가된 Dataflow SparseCores 를 포함하는지 TPU 칩을 알지 못합니다.

Sunfish TPU 는 BF16, INT8, FP8 포맷을 지원하며, GenAI 훈련 스택의 일부에서 정밀도 절약을 할 수 있는 경우 FP8 대비 성능을 2 배로 높이는 새로운 FP4 포맷을 추가했습니다. Sunfish TPU 8t 의 최대 FP4 트루스피트는 12.6 petaflops 이며, 저는 아마도 이를 FP8 오오퍼를 위해 절반으로 줄이고, 다시 BF16 트루스피트를 위해 절반으로 더 잘랐을 것입니다. INT8 성능이 FP8 성능과 동일하다고 가정하지는 않지만, TPU 8 칩 두 개 모두에 해당할 가능성이 높습니다.

Sunfish TPU 8t 는 Ironwood TPU v7e 와 동일한 3D 토러스 인터커넥트를 사용하지만, 단일 메모리 도메인 포드에서 9,216 대가 아닌 9,600 대의 TPU 로 늘려졌습니다.

이로 인해 TPU 하우스의 추론 측면과 Zebrafish TPU 8i 가 등장합니다.

Zebrafish 8i 칩은 큰 것이지만, 그 이유는 8i 패키지의 단일 컴퓨팅 다이에 384 MB 의 SRAM 캐시를 가지고 있기 때문입니다. 큰 SRAM 을 만들게 되면, 패키지에 텐서코어 수를 두 배로 늘리고 균형을 맞추는 것이 좋습니다. 그리고 구글이 바로 그렇게 했습니다. 효과적인 캐시당 텐서코어 수는 Sunfish 8t 와 Ironwood v7e 가속기 대비 3 배 증가했습니다.

Zebrafish TPU 8i 칩의 블록 다이어그램은 다음과 같습니다:

Zebrafish 8i 칩은 두 개의 TensorCore 를 가지고 있지만 SparseCore 는 없습니다. 새로운 Collectives Acceleration Engine, 또는 CAE 가 있습니다. 이는 collectives 오프로드 엔진과 유사합니다. 구글이 기술 블로그에서 이렇게 설명했습니다:

"샘플링 병목 현상을 해결하기 위해 TPU 8i 는 CAE 를 사용하며, 코스를 통해 결과를 거의 제로 지연으로 집계하고, 자동 회귀 디코딩 및 "생각의 연쇄 (chain-of-thought)" 처리 동안 필요한 축적 및 동기화 단계를 가속화합니다. 각 TPU 8i 칩에는 온-코어 다이에 두 개의 Tensor Core (TC) 와 칩릿 다이에 하나의 CAE 가 있으며, 이전 세대 Ironwood TPU 의 코어 다이에 있는 네 개의 SparseCore (SC) 를 대체합니다. 전문화된 CAE 를 통합함으로써 TPU 8i 는 collectives 의 온칩 지연을 5 배로 줄였습니다. 집합 연산당 낮은 지연은 대기 시간을 줄여 수백만 개의 에이전트를 동시 실행하기 위해 필요한 높은 트루스피트에 직접적으로 기여합니다.

이 CAE 이나무바보가 어떻게 작동하는지에 대해 더 알아내기를 기대합니다.

Zebrafish 8i 칩의 추론에 초점을 맞추어 구글은 인터칩 인터커넥트 (ICI) 에 새로운 계층적 네트워크 토폴로지를 개발했습니다. 이는 TPU 시스템에서 보드 수준 및 때로는 랭크 수준에서 머신을 연결하는 데 사용되었습니다.

이 두 TPU 시스템 보드는 각 보드에 네 개의 소켓을 가지고 있으며, 구글의 Axion Arm 서버 CPU 를 호스트로 사용합니다. 구글은 사용하는 Axion 의 두 가지 맛 중 어느 것이냐에 대해 명확하지 않습니다 - Neoverse V2 코어 기반이거나 Neoverse N3 코어 기반이냐는 것입니다. 우리가 알아내려 합니다.

이제 이 이야기의 2 번째 부분에서 TPU 8 시스템의 네트워킹 향상 사항에 대해 이야기할 것입니다. 지켜봐 주세요."}

AI 자동 생성 콘텐츠

원문 바로가기

TPU 8 의 도입으로 구글이 생성형 AI 시스템을 더 잘 만들었으며, 단순히 더 커진 것이 아닙니다.

요약

핵심 포인트

TPU 8 의 도입으로 구글이 생성형 AI 시스템을 더 잘 만들었으며, 단순히 더 커진 것이 아닙니다.

댓글