본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 25. 01:34

OpenAI와 Broadcom, LLM 최적화 추론 칩 Jalapeño 공개: Nvidia를 위협하는 추론 베팅의 의미

요약

OpenAI와 Broadcom이 LLM 추론에 최적화된 맞춤형 AI 칩 'Jalapeño'를 공개했습니다. TSMC에서 제조되는 이 칩은 GPT-4o 및 차세대 모델의 서비스 경제성을 극대화하며, OpenAI의 수직 계열화를 통한 Nvidia 의존도 탈피를 목표로 합니다.

핵심 포인트

  • OpenAI의 첫 번째 맞춤형 실리콘 설계 및 Broadcom 협업
  • LLM 추론 성능, 효율성 및 확장성 최적화에 집중
  • TSMC 제조를 통한 GPT-4o 및 o3 모델 서비스 경제성 확보
  • 추론 계층의 수직 계열화를 통한 Nvidia 경쟁 구도 변화

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 24일

OpenAI와 Broadcom이 LLM 최적화 추론 칩인 Jalapeño를 공개했습니다. 이를 통해 OpenAI는 Nvidia의 데이터 센터 로드맵을 부차적인 문제로 만들어 버렸습니다. 이는 단순한 FLOPS(부동 소수점 연산 능력) 경쟁에서 승리해서가 아니라, 추론 계층(inference layer)을 엔드 투 엔드(end-to-end)로 소유하는 것이 훈련 벤치마크에서 승리하는 것보다 더 가치 있다는 것을 증명함으로써 이루어졌습니다.

2026년 6월 24일, OpenAI와 Broadcom은 성능, 효율성 및 확장성을 개선하기 위해 LLM 추론(inference)을 위해 특별히 구축된 맞춤형 AI 칩인 Jalapeño소개했습니다. OpenAI와 Broadcom이 이와 같은 LLM 최적화 추론 칩을 공개하는 것은 OpenAI의 첫 번째 맞춤형 실리콘(custom silicon)을 의미하며, 이는 TSMC에서 제조되고 10기가와트(gigawatts)를 목표로 배포되며, GPT-4o, o3 및 그 이후의 모든 모델을 서비스하는 경제성에 정조준하고 있습니다.

이 기사를 다 읽을 때쯤이면 여러분은 Jalapeño가 정확히 무엇인지, 이것이 여러분의 GPU 조달 계산을 어떻게 바꾸는지, 자체 호스팅 클러스터(self-hosted clusters) 대신 언제 이것을 사용해야 하는지, 그리고 OpenAI의 수직 계열화(vertical integration)에 따른 가격 재산정이 여러분의 추론 비용 로드맵에 영향을 미치는지 여부를 알게 될 것입니다.

OpenAI Broadcom Jalapeño custom LLM inference accelerator chip on a data center server board

Jalapeño는 Broadcom과의 파트너십을 통해 구축되고 TSMC에서 제조된 OpenAI의 첫 번째 맞춤형 설계 추론 가속기(inference accelerator)이며, 이는 프런티어 연구소(frontier labs)가 컴퓨팅 자원을 확보하는 방식의 구조적 변화를 의미합니다. 출처

Coined Framework

추론 주권 스택 (The Inference Sovereignty Stack) — 프런티어 AI 연구소들이 칩 아키텍처(chip architecture), 추론 런타임(inference runtime), 그리고 모델 가중치(model weights)를 동시에 소유함으로써 제3자 실리콘에 대한 의존성을 무너뜨리고, 모든 하위 기업(downstream enterprise)을 위한 AI 접근 비용을 근본적으로 재산정하는 신흥 수직 계열화 패턴

이는 모델 제공업체가 자신의 마진을 칩 벤더에게 임대하는 것을 멈추고, 내부적으로 효율성 이득을 복리로 쌓기 시작하는 순간을 명명합니다. Jalapeño는 프런티어 규모에서 이 패턴이 처음으로 완전히 구현된 사례입니다.

발표 내용: 공식 사실, 날짜 및 출처

공식 발표: Jalapeño 인텔리전스 프로세서 (Jalapeño Intelligence Processor)

OpenAI와 Broadcom은 Jalapeño를 공동 발표했습니다 — 이는 AI 시스템 전반의 성능, 효율성 및 규모를 개선하기 위해 LLM 추론용으로 구축된 맞춤형 AI 칩입니다. 공식적인 표현은 의도적으로 정밀합니다: 이것은 학습(training) 칩이 아닌 추론(inference) 칩이며, 핵심 주장 또한 원시 처리량(raw throughput)이 아닌 효율성입니다. 그 차이가 이 이야기의 전부입니다. 이번 행보는 프런티어 연구소들의 맞춤형 실리콘 전략에 관한 일련의 보도 이후에 이루어졌습니다.

연구용 프리뷰와 달리, 이것은 프로덕션 인프라 하드웨어입니다. OpenAI는 여러분에게 칩을 판매하는 것이 아닙니다 — 여러분이 이미 구축하고 있는 OpenAI API 하단의 실리콘을 바꾸고 있는 것입니다.

주요 파트너: OpenAI, Broadcom, 그리고 TSMC

Broadcom은 공동 설계 및 통합 파트너입니다 — 최첨단 ML 가속기 연구보다는 검증된 ASIC 및 네트워킹 전문성을 바탕으로 선택되었습니다. Broadcom은 이미 Google의 TPU 실리콘을 공동 생산하고 있으며, 이는 이들을 지구상에서 가장 경험이 풍부한 하이퍼스케일러 ASIC 파트너로 만듭니다. TSMC는 최첨단 노드 공정을 사용하는 확정된 제조사입니다.

타임라인 및 배포 규모: 10기가와트(10-Gigawatt) 목표

이 파트너십은 10기가와트(10 gigawatts) 규모의 맞춤형 AI 가속기(AI accelerator) 배포를 목표로 합니다. 참고로, 이는 많은 중견 국가들의 총 전력망 용량보다 더 큰 인프라 규모를 의미하며, 이는 OpenAI가 단순한 모델 제공자를 넘어 인프라 기업으로서 입지를 다지고 있음을 시사하는 수치입니다.

10 GW
목표 맞춤형 가속기 배포 규모
[OpenAI, 2026](https://openai.com/index/openai-broadcom-jalapeno-inference-chip/)
...

초기 테스트 결과, 1세대 칩은 현재의 최첨단 대안들보다 와트당 성능(performance per watt)이 실질적으로 더 뛰어나다는 것이 확인되었습니다. 이는 Nvidia의 H100 및 H200의 효율성 지표를 직접 언급하지 않으면서도 정교하게 표현된 견제입니다.

Jalapeño란 무엇이며 어떻게 작동하는가

아키텍처 개요: 학습(Training)이 아닌 LLM 추론(Inference) 중심의 설계

Jalapeño는 추론(inference) 워크로드에 대한 OpenAI의 내부 비전을 중심으로 설계되었습니다. 즉, 트랜스포머 어텐션 패턴(transformer attention patterns), KV 캐시 관리(KV cache management), 그리고 자기회귀적 토큰 생성(autoregressive token generation)이 범용 컴퓨팅 엔진에 사후적으로 덧붙여진 기능이 아니라, 하드웨어의 핵심 기본 요소(first-class hardware primitives)로 구현되어 있음을 의미합니다. 그 근간이 되는 메커니즘은 오리지널 트랜스포머 아키텍처 논문으로 거슬러 올라갑니다.

이는 GPU가 진화해 온 방식과는 정반대입니다. GPU는 AI를 위해 용도가 변경된 병렬 그래픽 프로세서입니다. 반면 Jalapeño의 데이터패스(datapath)는 대규모 언어 모델(LLM) 서빙의 특징인 디코딩 중심(decode-heavy) 및 메모리 대역폭 제한(memory-bandwidth-constrained) 프로필에만 독점적으로 설계되었습니다.

LLM 추론의 병목 현상은 단순한 곱셈-누산(multiply-accumulate) 연산이 아니라, 가중치 이동(weight movement)과 KV 캐시 I/O에 의해 발생합니다. 디코딩 단계에서는 피크 FLOPS(peak FLOPS)에서 승리하는 칩보다 와트당 메모리 대역폭에서 승리하는 칩이 언제나 승리합니다.

인텔리전스 프로세서(Intelligence Processor) 설계 철학

자기회귀 생성 (Autoregressive generation)의 디코딩 단계 (decode phase)는 한 번에 하나의 토큰을 생성하며, 메모리로부터 모델 가중치 (model weights)를 반복적으로 스트리밍합니다. 이는 연산 제한적 (compute-bound)이고 배치 병렬적 (batch-parallel)인 학습 (training)과는 근본적으로 다릅니다. Jalapeño는 실제 운영 비용을 지배하는 워크로드의 부분을 최적화합니다. 즉, ChatGPT 규모에서 하루에 수십억 개의 토큰을 서빙하는 작업을 최적화하는 것입니다.

Jalapeño 기반 추론에서 토큰이 흐르는 방식

  1

    **API 요청 (API Request) → OpenAI 추론 런타임 (Inference Runtime)**

사용자의 프롬프트가 OpenAI API에 도달합니다. 런타임은 입력을 토큰화 (tokenize)하고 Jalapeño 서빙 플릿 (serving fleet)으로 라우팅합니다. 사용자 측에서 SDK를 변경할 필요는 없습니다.

↓

  2
...

전체 프롬프트가 병렬로 처리되어 초기 KV 캐시 (KV cache)를 구축합니다. 이 단계는 처리량 (throughput) 중심적이며, Jalapeño의 조밀한 행렬 유닛 (dense matrix units)으로부터 이득을 얻습니다.

↓

  3
...

단계마다 하나의 토큰이 생성됩니다. 가중치 (weights)와 KV 캐시가 고대역폭 메모리 (high-bandwidth memory)로부터 스트리밍됩니다. 이 지점이 Jalapeño의 와트당 성능 (performance-per-watt) 우위가 복리로 작용하는 구간입니다.

↓

  4
...

생성된 토큰들이 다시 스트리밍됩니다. 토큰당 에너지 소모가 낮다는 것은 백만 토큰당 비용이 낮아짐을 의미하며, 이는 결국 사용자의 청구서에 도달하는 지표입니다.

디코딩 단계 (3단계)는 추론 비용의 대부분을 차지하며, 이는 바로 Jalapeño의 메모리 서브시스템 (memory subsystem)이 승리하도록 설계된 병목 지점입니다.

Jalapeño가 GPU, TPU, NPU와 다른 점

Jalapeño는 맞춤형 ASIC 가속기 (custom ASIC accelerator) 범주에 속합니다. 철학적으로는 Google의 TPU v5 및 Amazon의 Trainium2와 유사하지만, 학습 반복 속도보다는 추론 처리량 (inference throughput)에 맞춰 조정되었습니다. TPU가 원래 학습 우선(training-first)이었고 NPU가 엣지 디바이스 (edge devices)를 목표로 하는 반면, Jalapeño는 대규모 데이터센터 추론 (datacenter inference)이라는 틈새 시장을 점유합니다. 이러한 가속기들이 어떻게 다른지에 대한 더 광범위한 입문 정보는 당사의 AI 추론 하드웨어 (AI inference hardware) 가이드를 참조하십시오.

Nvidia는 최고의 범용 AI 칩을 판매합니다. OpenAI는 방금 단 하나의 특정 작업 — 즉, 자체 모델을 서빙하는 것 — 을 위한 최고의 칩을 구축했으며, 그 좁은 범위의 이점이 광범위한 이점보다 더 큰 가치를 지닙니다.

Diagram comparing general-purpose GPU datapath versus inference-optimized ASIC memory subsystem architecture

아키텍처의 차이: GPU는 유연한 병렬 연산 (parallel compute)에 다이 영역 (die area)을 할당하는 반면, Jalapeño는 LLM 서빙의 실제 비용 동인인 메모리 대역폭 (memory bandwidth) 및 KV 캐시 (KV cache) 이동에 집중합니다. 출처

전체 역량 분석: Jalapeño가 실제로 제공하는 것

와트당 성능 (Performance Per Watt): 핵심 지표 설명

현재 최고 수준 (state-of-the-art)보다 와트당 성능이 실질적으로 더 뛰어나다는 OpenAI의 주장은 이번 발표에서 유일한 정량적 신호이며, 이는 의도적으로 표현되었습니다. 이들은 더 높은 원시 FLOPS를 주장하지 않습니다. 대신 효율성 (efficiency)을 주장합니다. 10기가와트 (10-gigawatt) 규모에서 효율성 그 자체가 제품입니다. 토큰당 절약되는 모든 와트는 매일 발생하는 수십억 건의 요청을 통해 배가됩니다.

처리량 (Throughput), 지연 시간 (Latency), 그리고 토큰 생성 벤치마크

추론 최적화 칩은 자기회귀 디코딩 (autoregressive decode) 시 훈련 최적화 GPU 대비 일반적으로 와트당 토큰 생성량 (tokens-per-watt)이 2~4배 더 높습니다. Jalapeño의 '실질적으로 더 나은'이라는 표현은 이 범위 내에 있거나 그 이상임을 시사합니다. ML 인프라 책임자에게 이를 실무적으로 해석하면, 첫 번째 토큰 지연 시간 (first-token latency)은 낮아지고 랙 (rack)당 지속적인 초당 토큰 수 (tokens-per-second)는 높아짐을 의미합니다.

10GW 규모에서 와트당 토큰 생성량이 2배 개선되는 것은 점진적인 승리가 아닙니다. 이는 20GW의 그리드 전력이 필요한 것과 10GW가 필요한 것의 차이입니다. 효율성은 전력 그리드를 파괴하지 않고 확장할 수 있는 유일한 지표입니다.

확장성: 단일 칩에서 10기가와트 함대까지

10기가와트(GW) 목표는 수만 개의 칩을 의미합니다. 단일 H100 서버 포드(pod)는 대략 10~40kW를 소모하며, 10GW는 현재 국가 전력망이 지원할 수 있는 한계에 맞닿는 인프라 규모를 나타냅니다. 이것이 바로 Broadcom의 네트워킹 전문성이 연산 다이(compute die)만큼이나 중요한 이유입니다. 이 정도 규모의 인터커넥트 패브릭(interconnect fabric)은 그 자체로 하나의 공학적 개척지입니다.

지원되는 모델 아키텍처 및 정밀도 형식 (Precision Formats)

정밀도 지원에는 OpenAI의 모델들이 이미 프로덕션 서빙(production serving)을 위해 양자화(quantized)되어 사용 중인 FP8, INT8, BF16 형식이 거의 확실히 포함됩니다. 이는 생소한 하드웨어에 대한 추측이 아닙니다. 최첨단 기업용 AI (enterprise AI) 추론이 이미 실행되고 있는 표준 양자화 스택입니다.

Coined Framework

실전에서의 추론 주권 스택 (The Inference Sovereignty Stack)

동일한 회사가 FP8 양자화 방식, 추론 런타임(inference runtime), 그리고 이를 실행하는 실리콘(silicon)을 모두 소유하게 되면, 최적화는 더 이상 세 개의 벤더 간의 협상이 아닙니다. 이는 하나의 엔지니어링 조직이 단일 수직 계열(single vertical)을 튜닝하는 과정이 됩니다. 그것이 바로 복리로 쌓이는 해자(moat)입니다.

Jalapeño 사용 방법: 가용성, 가격 및 통합

Jalapeño를 외부 개발자가 사용할 수 있나요?

아니요. Jalapeño는 소매용 또는 클라우드 마켓플레이스용 칩이 아닙니다. 이는 OpenAI의 인프라 하드웨어입니다. 서버에서 Jalapeño를 직접 받는 일은 없을 것입니다. 접근은 전적으로 OpenAI API와 기업용 계약을 통한 간접적인 방식으로만 이루어집니다.

OpenAI API를 통한 접근: 개발자에게 무엇이 바뀌는가

GPT-4o, o3 또는 향후 OpenAI 모델을 기반으로 구축한다면, Jalapeño가 프로덕션 서빙에 도입됨에 따라 자동으로 혜택을 받게 됩니다. SDK 변경도, 마이그레이션(migration)도 필요 없습니다. 이 칩은 기존 API 호출 아래에 깔리는 기질(substrate)이 됩니다.

python — 코드는 변경되지 않습니다

동일한 호출이 Jalapeño 기반 인프라에서 실행됩니다.

프로덕션에 도입됨에 따라 자동으로 실행됩니다. 마이그레이션이 필요 없습니다.

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
model='gpt-4o', # fleet 배포에 따라 Jalapeño에서 서비스됨
messages=[{'role':'user','content':'Q3 이탈 원인을 요약해줘.'}],
stream=True # 디코딩 단계 (decode-phase) 스트리밍이 가장 큰 이점을 얻음
)

for chunk in response: # 에너지/토큰 감소 -> 토큰당 비용 감소
print(chunk.choices[0].delta.content or '', end='')

이 기술을 기반으로 에이전트 시스템 (agentic systems)을 구축한다고요? 동일한 API를 LangGraph 또는 AutoGen과 같은 오케스트레이션 프레임워크 (orchestration frameworks)와 결합하면 하부의 실리콘 (silicon) 구조를 전혀 의식하지 않고도 사용할 수 있습니다. 또한, OpenAI API에서 직접 구동되는 사전 구축된 패턴을 확인하려면 저희의 AI 에이전트 라이브러리를 탐색해 보세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0