NVIDIA가 TSMC 첨단 패키징의 60%를 점유하는 2026년 — AI 반도체의 병목 현상은 'fab'만이 아니다 - Insights | Molayo

2026년에 AI 반도체에 대해 "병목(bottleneck)은 fab"이라고 말하는 것은 이제 절반만 맞는 말이다. 3nm/2nm의 수율(yield)은 여전히 골칫거리지만, 업계의 실제 혈류를 조이고 있는 곳은 다른 곳에 있다. TSMC의 첨단 패키징(advanced packaging) — CoWoS-L과 SoIC — 의 월간 웨이퍼(wafer) 생산량이다.

Morgan Stanley가 2026년 1분기에 발표한 CoWoS 용량 할당(allocation) 분석에 따르면, TSMC가 2026년 말까지 월 130,000매로 확장할 CoWoS 용량 중 NVIDIA가 약 60%를 점유하고 있다. 그다음은 Broadcom이 15%(Google TPU 및 Meta·OpenAI용 ASIC의 파운드리로서), AMD는 MI355/MI400 계열로 8~~11%를 차지한다. 남은 15~~20%를 Apple, MediaTek 및 기타 팹리스(fabless) 기업들이 나누어 갖는 구도다.

이 기사의 주장은 단 하나다. 칩렛(chiplet) 시대의 경쟁 축은 더 이상 웨이퍼(wafer) 위의 트랜지스터 밀도로만 결정되지 않는다. 웨이퍼 위에 얼마나 많이 쌓을 수 있는지, 그리고 그 할당량을 확보할 수 있는지가 2027년의 AI를 누가 돌릴 수 있는지를 결정한다. fab에 더해 또 하나의 병목 현상이 등장했다는 것이 2026년의 구조다.

본 기사는 그러한 구조가 발생한 원인을 공개 정보와 업계 추정치(Morgan Stanley 2026 Q1 outlook, TrendForce, TSMC IR 가이던스)를 통해 재구성한다.

2026년 초, CoWoS의 월간 생산 능력에 대한 전망은 급격히 상향 조정되었다. TSMC는 2024년 말 기준 월 35,000매였던 CoWoS 용량을 2025년 약 70,000매, 그리고 2026년 말에는 127,000~130,000매까지 확대할 계획을 내놓았다. 2024년 말 대비 거의 4배에 달한다. 이만큼 늘렸음에도 여전히 "부족하다"는 말이 나오는 것이 현재 AI 반도체 산업의 상태다.

Morgan Stanley가 제시한 할당(allocation) 추정치는 다음과 같은 구조를 보인다:

고객	2026년 말 CoWoS 월간 점유율 (추정)	주요 대상
NVIDIA	약 60% (약 76,000~78,000매/월)	Rubin R100, Hopper 후속, Blackwell 파생형
...

숫자의 출처는 Morgan Stanley의 업계 보고서를 다양한 매체가 인용한 것이며, TSMC 공식 발표에서는 고객별 점유율을 공개하지 않는다. 다만 TSMC IR의 Q1 FY26 가이던스에 있는 "CoWoS 용량 배증"과, NVIDIA가 공개 자료에서 반복하고 있는 "TSMC와의 전략적 협업"의 어조, 그리고 Wccftech나 TrendForce가 보도하는 "NVIDIA는 라인을 수년 치 예약 완료했다"는 공급망의 분위기는 Morgan Stanley의 수치와 모순되지 않는다.

여기서 읽어내야 할 점은 "NVIDIA가 대단하다"는 이야기가 아니다. TSMC의 첨단 패키징 월간 생산량은 설계를 마치고 fab을 통과한다고 해서 자동으로 확보할 수 있는 리소스가 아니게 되었다는 점이다. AMD는 MI400을 설계할 수 있지만, 이를 연간 몇 대나 출하할 수 있는지는 AMD의 설계 능력이나 TSMC의 fab 능력 이상으로 CoWoS-L의 할당량 확보 여부에 달려 있다.

이 상황에 이른 것은 우연이 아니라, AI 칩 아키텍처(architecture) 진화의 필연이다.

2010년대의 GPU는 단일 다이(die)로 완결되었다. 레티클 한계(reticle limit, 약 858 mm²) 이하의 크기였으며, HBM도 인터포저(interposer)도 없이 PCB에 직접 실장하는 설계였다. 2017~2020년 사이 HBM 통합을 위해 2.5D 패키지(초대 CoWoS)가 필요해졌고, TSMC의 CoWoS-S(silicon interposer)가 업계 표준이 되었다.

그리고 2024~2026년, AI 워크로드(workload)가 모델 크기와 대역폭(bandwidth)을 모두 끌어올린 결과, 다음과 같은 세 가지 현상이 나타나고 있다:

레티클 초과 (Reticle Limit Exceeding): 단일 다이(die)로 부족해져 여러 개의 다이를 나열할 필요가 생겼다. NVIDIA Blackwell B200은 이미 2개 다이 구성이다. Rubin Ultra (2027)는 당초 4개 다이 구성으로 계획되었으나, CoWoS-L에서의 warpage(휘어짐) 및 열 문제로 인해 2026년 들어 2+2 보드 레벨 구성으로 후퇴할 것이라는 관측이 나오고 있다 (Taiwan Commercial Times, TweakTown 등). 아이러니하게도 이는 본 기사의 테제(packaging이 새로운 제약이 되었다) 그 자체다. 설계가 packaging에 묶여 변하는 것은 2024년 이전에는 일어나지 않았던 현상이다. -
HBM의 개수: GPU 1개당 HBM 스택은 현재 68개이다. Rubin (R100)은 8 스택, Rubin Ultra는 12 스택이 상정된다 (SK Hynix 및 Micron에 대한 발주 보도 기준). HBM을 둘러싸기 위한 인터포저(interposer) 면적은 더욱 넓어진다. -
전력 공급의 한계: 대형 패키지에서 TDP 12 kW를 1 cm²당 공급하려면 기판 (substrate)과 TIM(열 인터페이스 소재)의 혁신이 필요하다.

이것들을 종합하여 해결한 것이 CoWoS-L이다. S 세대의 '거대한 단일 인터포저' 방식을 버리고, Local Silicon Interconnect(필요한 위치에 작은 silicon bridge를 매립하는 방식)로 전환하여 그 위를 유기 기판으로 받치는 구조를 통해, 레티클 최대 6배 규모의 패키지를 물리적으로 조립할 수 있게 했다. Rubin R100과 Rubin Ultra의 전제 기술이며, Apple과 AMD도 동일한 라인을 사용한다.

이 단계에 이르면 기술 명칭으로서의 'CoWoS-L'과 용량 문제로서의 'CoWoS-L 월간 생산량(monthly capacity)'이 동의어가 된다. 설계를 CoWoS-L 전제로 최적화한 벤더는, CoWoS-L 월간 생산량을 확보하지 못하면 제품 로드맵이 파탄 난다.

CoWoS-L이 '면으로 넓히는' 기술이라면, 또 다른 축은 '세로로 쌓는' 기술인 3D 적층, 즉 hybrid bonding (SoIC)이다.

hybrid bonding은 구리와 유전체를 직접 접합하는 '범프리스(bump-less)' 연결로, micro-bump (μ-bump)의 물리적 한계(약 25~40μm pitch)를 넘어 서브미크론 단위의 I/O 밀도를 실현한다. TSMC는 2026년 초, 양산에서 6μm pitch에 도달했다고 공표했다. 연구 단계에서는 수년 전부터 보였던 기술이지만, 이를 HVM (High Volume Manufacturing, 대량 생산) 단계로 끌어내린 것은 큰 진전이다. AMD V-Cache와 같은 on-die SRAM 적층, HBM4의 로직 다이 통합, NVIDIA의 CoWoS+SoIC 하이브리드 설계 등은 모두 6μm pitch를 양산 전제로 할 때 비로소 성립한다.

다만 SoIC의 월간 생산량은 CoWoS보다 훨씬 적다. 업계 추정치에 따르면 2026년 TSMC의 SoIC 월간 생산량은 10,000~15,000장/월 범위이며, 이는 CoWoS의 10% 정도 수준이다 (TSMC 공식 수치가 아니라 여러 업계 보고서가 범위를 두고 나타내는 수치이다). NVIDIA의 Rubin Ultra와 Feynman 세대, Apple의 M 시리즈 차세대, AMD의 MI400 계열이 이곳을 두고 다툰다.

즉, packaging의 병목 현상은 이중적이다:

**CoWoS-L (2.5D)**이 '거대 패키지를 조립할 틀'을 제한하고,
**SoIC (3D)**가 '다이를 쌓을 틀'을 제한한다.

이 두 가지 모두를 NVIDIA가 크게 확보하고 있다.

여기서 'TSMC의 독주로 끝날 것인가'를 확인하기 위해 대항 진영을 살펴본다. 양측 모두에게 2026년은 '병행 가능한 모습을 보여주는 해'가 될 것이다.

Intel Foveros Direct는 TSMC SoIC와 마찬가지로 하이브리드 본딩 (hybrid bonding)을 양산 기술로 목표로 한다. Intel은 2026년 하반기에 18A-PT(Power-Tweaked) 프로세스와 결합하여 sub-5μm pitch를 발표할 계획을 가지고 있다. 이것이 실제로 양산 단계에서 작동한다면, TSMC의 6μm 피치 (pitch)를 역전하게 된다. 나아가 Intel은 글래스 코어 기판 (glass core substrate)을 도입하여, 유기 기판의 휘어짐 (warpage)이나 열팽창 계수 불일치 문제를 구조적으로 해결하려 하고 있다. AMD MI400 계열과 같은 대형 패키지에서는 휘어짐 (warpage)이 실질적인 피해를 주는 문제이며, Intel은 이 부분을 구현 (implementation) 측면에서 공략하려 한다.

Samsung X-Cube 역시 하이브리드 본딩 (hybrid bonding) 기술을 보유하고 있다. X-Cube + SF2(2nm)를 통해 2026~2027년에 NVIDIA 이외의 고객을 공략할 예정이지만, TSMC로부터의 점유율 탈취는 제한적일 것이다. Samsung의 HBM 통합은 HBM3E 퀄리피케이션 (qualification) 과정에서 NVIDIA로의 공급에 한 차례 실패한 바 있어, 현재 신뢰 회복 단계에 있다.

하지만 Intel/Samsung의 현실적인 제약은 규모가 아니라 고객이다. Foveros Direct와 X-Cube가 기술적으로 작동하더라도, NVIDIA가 이를 채택하지 않는 한 월간 수만 장 규모의 세계에는 도달하지 못한다. Intel은 자사의 Panther Lake / Nova Lake 스마트 클라이언트 측면에서 Foveros를 사용하지만, AI 가속기 (accelerator) 측면에서 외부 고객을 확보하지 못하고 있다. Samsung은 Google이나 Tesla의 일부 ASIC에서 X-Cube를 사용할 가능성이 있지만, Broadcom과 TSMC의 관계를 끊어낼 수 있을지는 불투명하다.

결과적으로 2026년은 TSMC가 '피치 경쟁이 아닌 물량 (volume) 경쟁'에서 승리하고, Intel/Samsung은 '피치에서 앞서더라도 물량 (volume)이 뒷받침되지 않는' 비대칭적인 싸움이 되고 있다.

NVIDIA 60% 점유율의 이면을 보면, AMD와 Broadcom은 각각 별개의 어려움을 안고 있다.

AMD는 MI355와 MI400 모두에 CoWoS-L을 사용한다. Morgan Stanley의 추정에 따르면 연간 80,000~~105,000장, 월간 환산 시 약 7,000~~9,000장 정도다. 이조차도 MI 시리즈의 매출 가이던스 (guidance)를 충족하는 상한선에 근접해 있어, TSMC로부터 이 이상의 용량을 빼앗아 오는 것은 어렵다. AMD의 선택지는 (1) 설계 효율을 높여 웨이퍼 (wafer)당 GPU 수를 늘린다, (2) Samsung X-Cube를 일부 사용하여 TSMC 의존도를 분산한다, (3) MI500 계열에서 Intel Foveros Direct를 세컨드 소스 (second source)화하는 것 중 하나다. 어느 것이든 내년에 바로 실행되기는 어렵다.

Broadcom은 다른 구조로 움직이고 있다. Broadcom 자신의 제품이 아니라, Google TPU(v7 = Ironwood 및 그 차세대), Meta MTIA 차세대, OpenAI의 커스텀 ASIC을 TSMC의 CoWoS로 조립하는 파운드리 (foundry) 역할을 수행한다. CoWoS 월간 점유율에서 NVIDIA에 이은 2위 규모이지만, 최종 고객이 Google, Meta, OpenAI와 같은 '자체적으로 AI를 구동하는 거대 사업자'이기 때문에, 외부에 판매하지 않는 계산 리소스를 대량으로 점유하고 있다. NVIDIA는 판매할 GPU를 만들고, Broadcom은 판매하지 않을 GPU를 만든다 — 두 기업 모두 CoWoS 물량을 두고 다투는 구조다.

여기에 신규 플레이어로 Apple, MediaTek이 등장한다. Apple은 M5/M6 계열에서 CoWoS를 일부 사용하기 시작했다고 보도되었으며, MediaTek은 Google TPU v7의 공동 설계 (co-design) 과정에서 이름이 거론되고 있다. OpenAI는 TSMC와 직접 계약하는 대신, Broadcom을 경유하여 자사 칩을 설계 및 발주하는 형태를 취하고 있다 (2026년 양산 전 단계). **'CoWoS 1.15 million wafer 전쟁 (2026년 연간 합계)'**이라는 헤드라인은, 이 모든 플레이어가 TSMC의 물량을 두고 다투는 구도를 한마디로 표현하고 있다.

지금까지 '물량을 확보할 수 있는가'에 대해 이야기해 왔지만, 기술적인 불안 요소도 남아 있다.

업계 보고서에 따르면 CoWoS-L의 초기 수율 (yield)은 CoWoS-S에 비해 고전했다고 한다. 실리콘 브릿지 (silicon bridge)를 채우는 공정, HBM 수 증가에 따른 워피지 (warpage), 그리고 대형 패키지의 열 사이클링 (thermal cycling) 신뢰성 — 이들은 TSMC가 2026년까지 "거의 해결될 것"이라고 말하는 영역이지만, 그 "거의"의 내용은 특정 다이 크기 (die size)와 HBM 수의 조합에 국한된 이야기다. NVIDIA Rubin Ultra의 4 다이 구성이나 AMD MI500의 6+ HBM 구성에서는 수율 (yield)이 다시 떨어질 가능성이 남아 있다.

그리고 TSMC는 차세대 기술로 **CoPoS (Chip-on-Panel-on-Substrate)**를 준비 중이다. 웨이퍼 (wafer, 원형 300mm)가 아닌 패널 (panel, 직사각형 600mm급)을 사용하는 패키징 방식으로, 면적 효율이 대폭 향상된다. 이는 2027~2028년의 이야기지만, 만약 양산화된다면 CoWoS의 "프레임" 개념 자체가 재정의될 것이다. 현재의 "NVIDIA 60% 점유"는 CoWoS라는 전제 기술 위에서의 이야기이며, CoPoS 시대에도 동일한 점유율이 유지될지는 별개의 문제다.

즉, 이 병목 현상 구조는 영구적이지 않다. 하지만 적어도 2026~2027년의 AI 반도체는 이 구조 안에서 출하량과 출시 타이밍이 결정된다.

마지막으로 한 가지, 이 블로그의 본래 관심사(8GB RTX 4060으로 무엇을 할 수 있는가)와 연결하여 짧게 언급하겠다.

사실 CoWoS-L이나 SoIC를 사용한 최신 AI 반도체는 컨슈머 GPU로 내려오지 않는다. RTX 4060도, RTX 5060 계열도, RX 7900 XTX도 CoWoS나 SoIC를 사용하지 않는 단일 다이 (single die) + 일반 유기 패키지 (organic package)로 설계되어 있으며, 여기서 논의하는 CoWoS 월간 생산 능력 (monthly capacity)과는 별개의 라인 제품이다. 첨단 패키징 용량을 두고 벌이는 전쟁은 컨슈머 GPU 세계와 구조적으로 독립되어 있다. 데이터센터 GPU가 H100 → B200 → Rubin으로 진화하더라도, 성능 향상의 핵심이 패키징에서 기인하는 한, 컨슈머 시장으로 양산되어 내려올 경로가 없다.

역으로 말하면, 로컬 LLM의 세계는 이 전쟁의 바깥에서 다른 물리적 요소들(GDDR 세대, 양자화 (quantization), MoE, KV 최적화)을 상대하고 있다. 8GB로 무엇을 할 수 있는지를 파고드는 것이 Rubin의 동향을 쫓는 것보다 실용적이다 — 이것이 본 기사의 (약간은 냉소적인) 결론(corollary)이다.

지금까지 "fab에 더해 패키징 (packaging)이 새로운 병목 현상이 되었다"고 써왔다. 마지막으로 이 논지의 강도를 재조정해두고 싶다.

사실관계로서, (a) CoWoS 월간 생산 용량은 NVIDIA가 약 60%를 점유하고 AMD/Broadcom이 나머지를 다투는 구조이며, (b) TSMC의 용량 배증 가이던스(guidance)가 있음에도 업계는 "부족하다"고 말하고 있고, (c) Rubin/MI400 계열의 출하 타이밍이 실제로 패키징 용량에 의해 좌우되고 있다는 점까지는 공개된 정보와 업계 추정치를 통해 구성할 수 있다.

다만 "fab은 이제 병목이 아니다"라고 읽힌다면 그것은 과한 표현이다. 3nm 공급 (supply)은 여전히 타이트하며, 2nm의 수율 (yield) 확보도 난항을 겪고 있다. Apple, AMD, NVIDIA, Qualcomm이 3nm 물량을 두고 다투고 있으며, 그 물량 확보 또한 별개의 병목이다. 본 기사의 톤은 2024년 이전의 업계 상식("TSMC의 3nm 물량만 확보하면 AI 반도체를 만들 수 있다")으로부터의 변화를 강조하는 데 목적이 있으며, fab 병목을 부정하는 것이 아니다.

그리고 또 하나, 영속성에 대해서도 신중하고 싶다. CoPoS나 Intel Foveros Direct, Samsung X-Cube가 양산 단계에 진입하면, 2027~2028년에는 "TSMC CoWoS-L 독점" 구도 자체가 옅어질 가능성이 있다. 현재의 "패키징 병목"은 구조적인 전환점이지 종착점이 아니다.

그럼에도 2026년 AI 반도체 산업의 스냅샷을 찍는다면, 찍어야 할 것은 Morgan Stanley의 그 원형 그래프다. NVIDIA 약 60%, Broadcom 약 15%, AMD 8~~11%, 나머지 14~~17% — 이 비율이 각 기업의 수중에 무엇을 가져다줄지가 내년 AI 시장의 움직임을 보여주는 선행 지표가 될 것이다.

NVIDIA가 TSMC 첨단 패키징의 60%를 점유하는 2026년 — AI 반도체의 병목 현상은 'fab'만이 아니다

요약

핵심 포인트

댓글