HBM이 AI 칩 비용의 63%를 차지: 2024년 52%에서 상승

AI 칩 경제가 재편되고 있으며, 그 주인공은 연산(Compute)이 아닌 HBM(고대역폭 메모리)입니다. Epoch AI가 발표한 분석에 따르면, 고대역폭 메모리(HBM)는 2024년 초 52%였던 것에 비해 이제 평균 AI 칩 구성 요소 총비용의 63%를 차지하고 있습니다. 2년도 채 되지 않아 산업의 경제적 무게 중심이 로직(Logic)에서 스토리지(Storage)로 이동했습니다. 이러한 변화는 하이퍼스케일러(Hyperscalers)들이 2026년을 위해 발표하고 있는 자본 지출(Capex) 압박의 상당 부분을 설명하며, 인공지능 공급망을 실제로 누가 통제하는지를 재정의합니다.

요약(TL;DR): Epoch AI에 따르면, 2024년 1분기(Q1)에서 2025년 4분기(Q4) 사이 AI 칩 구성 요소 비용 중 HBM의 비중이 52%에서 63%로 증가했습니다. Nvidia, AMD, Google, Amazon의 HBM 지출은 120억 달러(2024년)에서 320억 달러(2025년)로 성장했습니다. 첨단 패키징(CoWoS)은 19%에서 15%로, 보조 구성 요소는 15%에서 9%로 감소했습니다. 로직 다이(Logic dies)는 3-5nm 공정으로의 전환에도 불구하고 총비용의 약 13%로 안정적으로 유지되었습니다. Microsoft는 구성 요소 가격 상승만으로 인해 2026 회계연도(FY2026) 자본 지출(Capex)이 250억 달러 추가될 것으로 예상합니다. Meta는 동일한 가격 압박을 언급하며 2026년 자본 지출(Capex) 범위를 100억 달러 상향 조정했습니다. AI 칩 구성 요소에 대한 총 지출은 220억 달러(2024년)에서 520억 달러(2025년)로 1년 만에 두 배 이상 성장했습니다. Epoch AI는 메모리 공급이 여전히 타이트함에 따라 2026년에도 HBM의 점유율이 계속 성장할 것으로 전망합니다.

무슨 일이 일어났는가: Epoch AI 보고서
2026년 5월 21일, Epoch AI는 공급업체의 재무 발표, 애널리스트 보고서 및 규제 공시를 바탕으로 칩당 비용을 재구성하는 데이터베이스인 AI Chip Components explorer 내에서 분석 내용을 발표했습니다.

Venkat Somala가 서명한 이 연구는 HBM (High Bandwidth Memory) 메모리, 로직 다이 (logic dies), 첨단 패키징 (TSMC의 CoWoS), 그리고 기판 (substrate), 전력 공급 (power delivery) 및 기타 비로직 투입물을 포함한 보조 부품과 같은 4가지 부품 카테고리를 8분기 연속으로 추적했습니다. 주요 발견 사항은 매우 강력합니다. HBM 메모리는 더 이상 칩의 여러 구성 요소 중 하나가 아니라, 핵심 구성 요소 (the component)입니다. HBM은 2024년 1분기 전체 비용의 52%를 차지하던 것에서 2025년 마지막 분기에는 63%로 상승했습니다. 절대적인 수치로 볼 때, 4대 주요 설계사 (Nvidia, AMD, Google, Amazon)의 HBM 지출은 2024년 약 120억 달러에서 2025년 약 320억 달러로 급증했으며, 이는 다른 어떤 카테고리의 전년 대비 증가율보다 높습니다. 흥[sic]미로운 점은 점유율의 변화뿐만 아니라 나머지 요소들에게 일어난 일입니다. 2024년에 업계의 병목 현상 (bottleneck)처럼 보였던 첨단 패키징 (advanced packaging)은 19%에서 15%로 감소했습니다. 보조 부품은 15%에서 9%로 떨어졌습니다. 그리고 실제 연산이 이루어지는 실리콘인 로직 다이 (logic dies)는 해당 기간 동안 업계가 5nm 노드에서 3nm 노드로 대거 전환했음에도 불구하고 13% 근처에서 거의 평이하게 유지되었습니다.

배경 및 역사: 우리가 어떻게 여기까지 왔는가
왜 HBM이 AI 칩 예산의 이토록 많은 부분을 차지하게 되었는지 이해하려면, HBM이 무엇인지 그리고 왜 중요한지를 되짚어봐야 합니다. HBM (High Bandwidth Memory) 메모리는 실리콘 인터포저 (silicon interposer)를 통해 로직 다이 (logic die)에 연결되는 수직 적층형 DRAM 메모리 아키텍처입니다. 메인보드에 장착되어 직렬 버스 (serial bus)를 통해 통신하는 전통적인 DDR과 달리, HBM은 프로세서에서 불과 몇 밀리미터 거리에 위치하며 수천 개의 핀을 통해 병렬로 연결됩니다. 이는 AI 워크로드에 대해 두 가지 압도적인 이점을 제공합니다: 대역폭 (bandwidth) (HBM3e 단일 스택은 초당 1테라바이트를 상회함)과 밀도 (density) (스택당 최대 36GB, 칩당 6~8개 스택 구성 가능)입니다.

대규모 모델을 학습(training)하거나 서빙(serving)할 때, 병목 현상(bottleneck)은 텐서 코어(tensor cores)의 계산 속도 때문인 경우가 드뭅니다. 실제 문제는 가중치(weights)와 활성화 값(activations)을 메모리에서 연산 유닛까지 얼마나 빠르게 이동시킬 수 있느냐 하는 점입니다. 더 나은 메모리는 값비싼 실리콘(silicon)의 활용도를 높여준다는 것을 의미합니다. 현대적인 AI 칩의 공급망에는 세 가지 뚜렷한 병목 현상이 존재합니다. 문제는 HBM을 생산하는 것이 어렵다는 점입니다. 전 세계에서 대규모로 생산하는 기업은 SK Hynix(절대적 선두주자), Samsung, Micron 단 세 곳뿐입니다. 이 공정에는 TSV(through-silicon vias, 실리콘 관통 전극) 적층, 하이브리드 본딩(hybrid bonding), 그리고 층별 테스트(testing)가 필요합니다. 역사적으로 수율(yield)은 일반 DRAM보다 낮았으며, 생산 능력(capacity)은 수년간 현재보다 훨씬 작았던 HPC(고성능 컴퓨팅) 서버 시장에 맞춰 조정되어 왔습니다. Nvidia, Google, AMD가 2024년과 2025년 주문량을 늘리자 공급이 그 속도를 따라가지 못했습니다. SK Hynix는 선도 계약을 통해 2026년까지의 HBM3e 생산 물량을 모두 판매했습니다. 가격은 상승했고, 2023년에는 퍼즐의 한 조각에 불과했던 이 부품은 이제 자재 명세서(bill of materials, BOM)에서 가장 비싼 항목이 되었습니다. 한편, TSMC는 CoWoS 패키징(packaging)에 가해지는 압박을 완화했습니다. 대만에 새로운 생산 능력에 집중적으로 투자하고 일본과 애리조나의 공장 인증을 시작했습니다. 패키징 공급이 수요보다 빠르게 성장했으며, 이는 전체 지출이 계속 상승하고 있음에도 불구하고 TSMC의 비용 점유율이 19%에서 15%로 상대적으로 하락한 이유를 설명해 줍니다. 데이터와 수치: 분기별 세부 내역 Epoch AI의 연구는 정확한 비용이 계약 및 공급업체마다 다르다는 점을 인정하며, 각 추정치에 대해 90% 신뢰 구간(confidence intervals)을 제시합니다. 그럼에도 불구하고, 이 범위는 추세를 확인하기에 충분할 만큼 좁습니다. 2024년 1분기의 경우 범위는 다음과 같았습니다: HBM 메모리: 52% (범위: HBM만 변동할 경우 48-56%, 모든 부품이 반대 극단에서 변동할 경우 42-62%). 로직(Logic): 14% (범위: 12-17%).

패키징 (CoWoS): 19% (범위: 14-24%). 기타 부품 (Auxiliaries): 15% (범위: 13-18%). 2025년 4분기 전망: HBM 메모리: 63% (HBM만 변동할 경우 60-67%, 극단적인 시나리오에서는 54-73%). 로직 (Logic): 13% (범위: 10-16%). 패키징 (CoWoS): 15% (범위: 11-19%). 기타 부품 (Auxiliaries): 10% (범위: 8-10%). 부품에 대한 누적 총 지출은 2024년 전체 약 220억 달러에서 2025년 520억 달러로 증가했습니다. 이 300억 달러의 증가분 중 3분의 2(200억 달러)는 HBM에 직접적으로 해당합니다. 즉, 2025년 AI 부품 시장의 성장은 사실상 단 하나의 카테고리가 모두 흡수했습니다. 💭 핵심: 2023년에 Nvidia 엔지니어가 H100의 지배적인 비용이 4nm 로직 다이(Logic Die)라고 말했다면, 오늘날 그러한 직관은 틀렸습니다. 현재의 B200에서는 TSMC 실리콘에 1달러를 쓸 때마다 SK Hynix의 메모리 스택에 거의 5달러를 지출합니다. 영향 및 분석: 하이퍼스케일러(Hyperscalers)에게 미치는 의미. 이러한 비용 구조의 변화는 이미 빅테크 기업들의 자본 지출(Capex) 예산에서 체감되고 있습니다. Microsoft는 2026 회계연도 Capex 가이던스로 약 1,900억 달러를 발표했으며, 이 중 약 250억 달러를 부품 가격 상승에 직접적인 원인이 있다고 밝혔습니다. Meta 또한 동일한 이유를 들어 2026년 Capex 범위를 100억 달러 상향 조정했습니다. 이는 AI 비용을 모델링하는 방식에 있어 질적인 변화를 의미합니다. 불과 2년 전까지만 해도 분석가들은 GPU 지출을 주로 TSMC의 기능으로 예측했습니다. 즉, TSMC가 3nm 웨이퍼를 얼마나, 어떤 가격에 생산할 수 있는지가 관건이었습니다. 오늘날의 모델에는 그만큼 중요한 두 번째 변수가 필요합니다. 바로 SK Hynix가 얼마나 많은 HBM3e 스택을 공급할 수 있는지, 그리고 각 스택의 비용이 얼마인지입니다. HBM 지출은 1년 만에 120억 달러에서 320억 달러로 세 배 증가했습니다.

가치 사슬 (Value Chain)을 시각화하면 이러한 변화가 명확하게 드러납니다:

클라우드에서 AI 용량을 소비하는 개발자와 라틴 아메리카 (LATAM) 기업들에게 이러한 변화는 세 가지 실질적인 결과를 초래합니다. 첫째, GPU 인스턴스의 시간당 가격은 2026년에도 유의미하게 낮아지기 어려울 것입니다. 근본적인 비용이 상승하고 있기 때문입니다. 둘째, SK Hynix와 직접적인 계약을 맺은 공급업체(Nvidia, Google)는 스팟 시장 (Spot market)에 의존하는 업체(칩 스타트업)에 비해 구조적 우위를 점하게 될 것입니다. 셋째, 모델의 메모리 사용 효율성—FlashAttention, MoE (Mixture of Experts), KV 캐시 압축 (KV cache compression)과 같은 기술—은 단순한 학술적 최적화를 넘어 실질적인 경제적 레버리지가 됩니다.

💡 팁: 만약 귀하의 추론 파이프라인 (Inference pipeline)이 대규모 모델을 실행 중이고 GPU 비용이 상당하다면, 메모리의 얼마만큼이 KV 캐시 (KV cache)에 의해 점유되고 있는지 확인하십시오. PagedAttention (vLLM)이나 KV 캐시를 INT8로 양자화 (Quantization)하는 기술은 모델을 수정하지 않고도 처리량 (Throughput)을 두 배로 늘릴 수 있습니다.

PyTorch를 사용하여 추론 서버의 메모리 사용량을 측정하는 구체적인 코드 예시:

import torch

def report_memory ( stage : str ) -> None :
    if not torch . cuda . is_available ():
        return
    allocated = torch . cuda . memory_allocated () / 1024 ** 3
    reserved = torch . cuda . memory_reserved () / 1024 ** 3
    peak = torch . cuda . max_memory_allocated () / 1024 ** 3
    print ( f " [ { stage } ] alloc= { allocated : . 2 f } GB reserved= { reserved : . 2 f } GB peak= { peak : . 2 f } GB " )

report_memory ( " 모델 로드 시 " )
out = model.

generate ( input_ids , max_new_tokens = 512 ) report_memory ( " 생성 후 " )

할당된 (allocated) 메모리와 예약된 (reserved) 메모리 사이의 차이가 크다면 파편화 (fragmentation)가 발생한 것이며, 피크 (peak) 수치가 장치의 한계치에 근접해 있다면 사용하지 않는 HBM 비용을 지불하고 있는 것입니다.

다음 단계: 2026년과 공급 부족 시나리오

Epoch AI는 전체 부품 비용 내에서 HBM이 차지하는 비중이 2026년에도 계속 성장할 것으로 전망합니다. 그 이유는 세 가지입니다. 첫째, 공급이 여전히 타이트합니다. HBM을 생산하는 세 기업 모두 HBM3e의 본격적인 양산 (ramp-up) 단계에 있으며 HBM4를 시작하고 있지만, 새로운 공장들은 2027년이 되어야 대규모로 가동될 것입니다. 둘째, 차세대 칩 (Nvidia Rubin, AMD MI400, Google TPU v7)은 현재 세대와 비교했을 때 단위당 HBM 탑재량이 두 배로 늘어납니다. 셋째, 2025년 동안 체결된 계약에서 현물 가격 (spot prices)은 이미 전년 대비 15-20%의 상승을 보이고 있습니다.

이 궤도를 바꿀 수 있는 두 가지 대안적 시나리오가 있습니다. 하나는 삼성 (Samsung)이 HBM3e의 수율을 안정화하고 SK Hynix와 공격적으로 경쟁하기 시작한다면, 2026년 말쯤 가격이 완화될 수 있다는 것입니다. 다른 하나는 메모리 사용량을 줄이는 신흥 아키텍처 (희소 확산 모델 (sparse diffusion models), 개선된 라우팅을 갖춘 MoE, 추론 시 가중치 압축 기술 등)가 충분히 성숙해진다면, 추가적인 수요 증가세가 둔화될 수 있다는 것입니다. 단기적으로는 두 시나리오 모두 가능성이 낮습니다. 가장 확실한 예측은 향후 18개월 동안 AI 칩 비용 중 가장 큰 비중을 차지하는 것은 연산 (compute)이 아니라 여전히 메모리라는 점입니다.

⚠️ 주의: Epoch AI의 추정치는 생산량 기준 가중 평균입니다. 192GB의 HBM3e를 탑재한 Nvidia B200과 같은 특정 칩의 경우, 실제 HBM 비중은 70%를 넘을 가능성이 높습니다. Google의 TPU v5e와 같이 메모리가 적은 칩의 경우 이보다 낮습니다.

📖 Telegram 요약: 요약 보기

자주 묻는 질문 (FAQ)
HBM이란 무엇이며 일반 RAM과는 어떻게 다른가요?

HBM (High Bandwidth Memory)은 메인보드가 아닌 실리콘 인터포저 (silicon interposer)를 통해 프로세서에 연결되는 수직 적층형 DRAM 메모리입니다. 이를 통해 스택당 최대 1.2 TB/s의 대역폭 (bandwidth)을 제공할 수 있으며, 이는 전통적인 DDR5보다 수 차례 더 높은 수준입니다. HBM은 사실상 거의 모든 현대적인 AI GPU에서 사용되는 메모리입니다.

왜 HBM 가격이 이렇게 많이 올랐나요? 공급이 수요만큼 빠르게 늘어나지 않았기 때문입니다. 단 세 개의 기업 (SK Hynix, Samsung, Micron)만이 대규모로 HBM을 생산하고 있으며, TSV (Through-Silicon Via) 적층 공정은 기존 DRAM보다 수율 (yield)이 낮습니다. 하이퍼스케일러 (hyperscalers)들이 2024-2025년에 주문량을 세 배로 늘리면서 가격이 상승했고, 생산 용량은 선도 계약 (future contracts)으로 인해 이미 확보되었습니다.

이것이 2026년에 GPU 가격이 더 비싸질 것이라는 의미인가요? 적어도 생산 비용 측면에서는 아마 그럴 것입니다. Microsoft와 Meta는 이미 부품 가격을 이유로 2026년까지 수십억 달러의 추가 자본 지출 (capex)을 예상했습니다. 클라우드 내 GPU 인스턴스의 소비자 가격이 오를지 여부는 제공업체 간의 경쟁이 얼마나 치열한지, 그리고 그들이 마진 (margin)을 얼마나 희생할 용의가 있는지에 달려 있습니다.

어떤 기업이 이러한 변화에서 가장 큰 이득을 보나요? SK Hynix는 HBM3e 분야에서 지배적인 위치를 점하며 가장 큰 승자가 되고 있습니다. Samsung과 Micron 또한 이득을 보고 있지만,

HBM이 AI 칩 비용의 63%를 차지: 2024년 52%에서 상승

요약

핵심 포인트

댓글