OpenAI와 Broadcom의 Jalapeño, 맞춤형 추론 ASIC: 추론 ASIC vs GPU

무엇인가: OpenAI와 Broadcom의 Jalapeño 발표 (2026년 6월 24일)는 OpenAI의 첫 번째 맞춤형 LLM 추론 ASIC (Application-Specific Integrated Circuit) 입니다. 이는 모델을 학습(training)시키기보다는 실행(run)하기 위해 구축된, HBM과 결합된 레티클 크기(reticle-sized)의 컴퓨팅 칩렛(chiplet)입니다. 이 발표가 구체화하는 개념은 추론에 최적화된 ASIC 대 범용 GPU의 차이입니다.

이유: 디코딩(decode) 시점의 병목 현상은 대개 연산을 수행하는 것이 아니라 데이터를 이동시키는 것에서 발생합니다. 따라서 이러한 데이터 이동을 중심으로 공동 설계된 칩은 토큰당 훨씬 적은 전력을 사용하여 동일한 토큰을 제공할 수 있습니다. 초기 테스트 보고서에 따르면 성능 대비 전력 효율(performance-per-watt)이 상당히 개선되었으며(최종 수치는 아직 측정 중), 이는 OpenAI의 규모에서 서비스 비용을 실질적으로 변화시킵니다.

이전 기술과의 차이: **범용 GPU (general-purpose GPU)**는 학습, 그래픽, 모든 모델 등 무엇이든 실행할 수 있으며, 그러한 유연성을 위해 실리콘 면적과 전력을 소모합니다. 반면 Jalapeño는 **추론 전용으로 하드웨어화(hard-wired)**되어, GPU의 다재다능함을 포기하는 대신 메모리와 컴퓨팅 사이의 더 짧고 빠른 경로를 확보했습니다.

비유하자면

식재료 창고를 가스레인지 바로 옆으로 옮겨서, 오직 한 가지 요리만을 위해 재설계된 주방과 같습니다.

                  단 하나의 요리: LLM 추론
                            │
            ┌───────────────┴───────────────┐
...

추론 ASIC (inference ASIC) = 가능한 한 빠르고 저렴하게 단 하나의 요리를 만들기 위해 재설계된 주방
범용 GPU (general-purpose GPU) = 메뉴에 있는 무엇이든 요리할 수 있는 레스토랑 주방
데이터 이동 병목 현상 (data-movement bottleneck) = 요리사가 멀리 떨어진 창고에서 밤새도록 식재료를 나르는 상황
컴퓨팅 칩렛 옆의 HBM (HBM beside the compute chiplet) = 창고를 가스레인지 바로 옆으로 옮기는 것
성능 대비 전력 효율 (performance-per-watt) = 가스를 사용하는 단위당 더 많은 접시를 서빙하는 것

용어 사전

ASIC — 주문형 반도체 (Application-Specific Integrated Circuit) — 범용 컴퓨팅이 아닌 특정한 종류의 작업을 위해 제작된 실리콘입니다. 범용 프로세서의 유연성을 포기하는 대신, 해당 작업에서의 속도와 에너지 효율성을 얻을 수 있습니다. Jalapeño의 작업은 LLM 추론입니다.

HBM — 고대역폭 메모리 (High-Bandwidth Memory) — 데이터가 연산 유닛(math units)에 더 빠르게 도달할 수 있도록 연산 다이(compute die)와 물리적으로 매우 가깝게 배치된 적층형 DRAM입니다. 이는 하이엔드 GPU에서 사용되는 것과 동일한 고속 메모리이며, 서빙(serving) 중에 모델이 실제로 상주하는 곳입니다.

추론 vs 학습 (Inference vs training) — 학습(Training)은 모델의 가중치(weights)를 구축하는 과정이며, 추론(Inference)은 완성된 가중치를 실행하여 토큰을 생성하는 과정입니다. 두 과정은 하드웨어에 서로 다른 부하를 주기 때문에, 특정 칩이 한쪽에는 탁월하지만 다른 쪽에는 부적합할 수 있습니다. Jalapeño는 **추론 전용(inference-only)**입니다.

메모리 대역폭 제한 (Memory-bandwidth-bound) — 연산이 산술 연산을 수행하기보다 메모리로부터 데이터가 도착하기를 기다리는 데 대부분의 시간을 소비하는 상태를 의미합니다. 싱글 토큰 디코딩(Single-token decode)이 전형적인 사례로, 읽어 들여야 할 바이트는 많지만 바이트당 수행되는 연산은 적습니다.

테이프아웃 (Tape-out) — 칩 설계가 완료되어 제조를 위해 파운드리(fab)로 전달되는 시점입니다. Jalapeño는 첫 설계부터 테이프아웃까지 약 9개월이 걸렸으며, OpenAI는 이를 현재까지 가장 빠른 사이클 중 하나라고 설명합니다.

레티클 크기 칩렛 (Reticle-sized chiplet) — _레티클(reticle)_은 칩 제조 장비가 단일 노광(exposure)으로 패턴을 형성할 수 있는 최대 면적(약 800 mm²)을 의미합니다. **레티클 크기의 연산 칩렛(reticle-sized compute chiplet)**은 하나의 다이(die)가 물리적으로 가질 수 있는 최대 크기에 해당하며, Jalapeño는 이러한 타일 하나를 HBM과 결합합니다.

와트당 성능 (Performance-per-watt) — 유용한 작업량(생성된 토큰 수)을 소모되는 전력량으로 나눈 값입니다. 데이터 센터 규모에서는 단순한 피크 속도만이 아니라 이 지표가 비용을 결정하기 때문에, 맞춤형 추론 칩은 이를 직접적인 목표로 삼습니다.

뉴스. 2026년 6월 24일, OpenAI와 Broadcom은 OpenAI의 첫 번째 "지능형 프로세서 (Intelligence Processor)"인 Jalapeño를 공개했습니다. 이는 기존의 트레이닝 가속기를 재용도화하거나 범용 AI 칩을 사용하는 것이 아닌, LLM 추론 (LLM inference)을 위해 특수 제작된 ASIC입니다. 이 칩은 단일 **레티클 크기 컴퓨팅 칩렛 (reticle-sized compute chiplet)**과 (범용 DRAM이 아닌) HBM을 결합하여 높은 처리량 (throughput)과 낮은 지연 시간 (latency)을 동시에 유지하며, 초기 설계부터 **약 9개월 만의 테이프아웃 (tape-out)**을 목표로 공동 설계되었습니다. 엔지니어링 샘플은 이미 실험실에서 GPT-5.3-Codex-Spark를 포함한 실제 프로덕션 워크로드를 실행 중이며, 초기 테스트 결과 현재의 최첨단 (state-of-the-art) 기술보다 "실질적으로 더 나은" 와트당 성능 (performance-per-watt)을 보고하고 있습니다 (최종 수치는 여전히 측정 중). 초기 배포는 2026년 말을 목표로 하고 있습니다. 공지사항 읽기 →

메뉴에 있는 모든 것—페이스트리, 그릴, 스프 등—을 요리할 수 있는 레스토랑 주방을 상상해 보십시오. 그러한 유연성은 훌륭하며, 그것이 바로 **범용 GPU (general-purpose GPU)**가 제공하는 것입니다. 모델 학습부터 게임 렌더링에 이르기까지, 여러분이 던져주는 어떤 병렬 워크로드 (parallel workload)라도 실행할 수 있는 수천 개의 프로그래밍 가능한 코어를 갖추고 있습니다. Jalapeño는 오직 단 하나의 요리, 즉 LLM 추론만을 위해 해체되고 재건축된 주방입니다. 이들의 베팅은 만약 단 하나의 요리만 계속한다면, 그 단 하나의 요리에 맞춰 형성된 주방이 무엇이든 할 수 있는 주방보다 훨씬 더 빠르고 훨씬 더 저렴하게 요리할 것이라는 점입니다.

그렇다면 이 "단 하나의 요리"를 제한하는 실제 요소는 무엇일까요? 여기서 사람들을 놀라게 하는 부분이 있습니다. 디코딩 (decode) 시점에 주방의 속도를 늦추는 것은 요리사의 손이 아니라, 멀리 떨어진 팬트리(pantry)에서 재료를 들고 오는 요리사들입니다. 모델이 토큰을 생성할 때, 작은 배치 크기 (small batch sizes)에서는 읽어 들인 바이트당 수행하는 산술 연산은 상대적으로 적은 반면, 모델의 가중치 (weights)를 메모리에서 연산 유닛 (compute units)으로 한 번 스트리밍해야 합니다. 이로 인해 단일 토큰 디코딩은 메모리 대역폭 제한 (memory-bandwidth-bound) 상태가 됩니다. 즉, 루프라인 (roofline)이 메모리 쪽으로 기울어지며, 연산 유닛 (math units)은 데이터를 기다리며 대부분 유휴 상태로 있게 됩니다. 칩 전체가 싸우고 있는 병목 현상은 바로 _데이터 이동 (data movement)_입니다.

단일 토큰 디코딩 — 시간이 소요되는 곳:

데이터 이동  ████████████████████████████████  지배적
...

이 다이어그램은 이러한 불균형을 구체적으로 보여줍니다. 대역폭 제한 (bandwidth-bound) 영역에서는 분홍색의 "데이터 이동 (moving data)" 구간이 지배적이며, 초록색의 "연산 (computing)" 구간은 아주 얇은 조각에 불과합니다. Jalapeño의 해답은 문제를 파악하고 나면 매우 명확합니다. 바로 팬트리를 가스레인지 바로 옆으로 옮기는 것입니다. Jalapeño는 대형 연산 칩렛 (compute chiplet)을 물리적으로 가까운 곳에 배치된 HBM과 결합하여, 메모리와 연산 사이의 비용이 많이 드는 이동 경로를 실리콘이 허용하는 한 가장 짧고 빠르게 만듭니다. OpenAI는 이 설계가 모델이 서비스 시점에 어떻게 동작하는지에 대한 자체적인 측정값으로부터 도출되었다고 밝혔으며, 이것이 바로 여기서 말하는 "공동 설계 (co-designed)"의 진정한 의미입니다. 즉, 이 칩은 일반적인 병목 현상이 아니라 회사가 실제로 관찰한 병목 현상을 중심으로 형성되었습니다.

단일 토큰에 대한 디코딩 연산 과정을 살펴보겠습니다 (예시 수치이며, OpenAI는 Jalapeño의 구체적인 수치를 공개하지 않았습니다). 어떤 모델이 **100 GB의 가중치 (weights)**를 보유하고 있고, 가속기가 메모리로부터 이를 4 TB/s의 속도로 읽어들인다고 가정해 봅시다. 하나의 토큰을 생성하려면 해당 가중치들을 연산 장치(compute)로 대략 한 번은 스트리밍해야 하므로, 소요 시간은 약 100 GB ÷ 4 TB/s = 25 ms가 됩니다. 그리고 이 25 ms 동안 산술 연산 장치 (arithmetic units)는 대부분 유휴 상태(idle)로 대기하게 됩니다. 이때 유효 메모리 대역폭 (effective memory bandwidth)을 두 배로 늘리면 이 25 ms는 대략 절반으로 줄어듭니다. 반면, 원시 연산 능력 (raw compute)을 두 배로 늘려도 거의 변하는 것이 없습니다. 이것이 바로 추론 칩 (inference chip)이 연산 장치를 더 많이 쌓는 것이 아니라, 연산 장치에 데이터를 공급하는 것을 중심으로 설계되는 이유이며, 핵심 지표가 피크 FLOPs (peak FLOPs)가 아닌 와트당 성능 (performance-per-watt)인 이유입니다.

그렇다고 해서 GPU가 사라진다는 의미는 아닙니다. Jalapeño가 감수하는 트레이드오프 (trade-off)는 실재하며 단방향적입니다. 즉, GPU가 가진 학습 (training) 능력, 매우 다른 종류의 워크로드 (workload)로의 전환 능력, 그리고 GPU가 처리할 수 있는 전체 범위의 모델과 작업을 수행하는 능력을 포기하는 것입니다. 맞춤형 ASIC (custom ASIC)은 단 하나의 워크로드를 엄청나고 지속적인 규모로 실행할 때만 이득을 봅니다. 이는 정확히 OpenAI의 상황이며, 동시에 하루에 수천 건의 요청을 처리하는 스타트업이 여전히 GPU를 찾는 이유이기도 합니다. 흥미로운 신호는 "ASIC이 GPU를 이긴다"가 아니라, LLM 추론이 이를 위해 전용 칩을 태워 만들 가치가 있을 만큼 크고 안정적인 워크로드가 되었다는 점입니다.

칩 (Chip)	설계 목적	유연성 (Flexibility)	강점
범용 GPU (General-purpose GPU)	학습 + 추론 + 모든 병렬 워크로드	가장 높음	기본값 — 성숙한 소프트웨어 생태계를 바탕으로 무엇이든 실행 가능
...
더 자세한 내용: GPU & CUDA → 루프라인 모델 (Roofline Model) → 병목 현상 문제 (The Bottleneck Question)

FAQ

Jalapeño와 같은 추론 ASIC란 무엇인가요?

추론 ASIC는 주문형 집적 회로 (Application-Specific Integrated Circuit)로, 범용 컴퓨팅 (general-purpose computing) 대신 한 가지 종류의 작업을 위해 구축된 실리콘이며, 대규모 언어 모델 (large language models)을 학습(train)하는 것이 아니라 실행(run)하기 위해 만들어졌습니다. 2026년 6월 24일에 공개된 OpenAI와 Broadcom의 Jalapeño는 OpenAI의 첫 번째 이러한 칩입니다. 이는 모델을 대규모로 서비스할 때 발생하는 데이터 이동 병목 현상 (data-movement bottleneck)을 중심으로 공동 설계된, HBM과 결합된 레티클 크기 (reticle-sized)의 컴퓨팅 칩렛 (compute chiplet)입니다. 이 칩은 해당 단일 워크로드 (single workload)에 대해 더 높은 와트당 성능 (performance-per-watt)을 얻는 대신 GPU의 범용적인 유연성을 포기했습니다 (초기 테스트 보고서에 따르면 상당히 더 우수하며, 최종 수치는 아직 측정 중입니다).

GPU를 사용하는 대신 왜 맞춤형 추론 칩을 만드나요?

디코딩(decode) 시점에 토큰을 생성하는 작업은 대개 메모리 대역폭 제한(memory-bandwidth-bound)을 받습니다. 즉, 칩이 산술 연산을 수행하는 시간보다 모델의 가중치(weights)를 메모리에서 꺼내오는 데 대부분의 시간을 소비합니다. 범용 GPU는 추론 과정에서 전혀 사용되지 않는 유연성을 위해 실리콘 면적과 전력을 소모합니다. 데이터 이동 병목 현상(data-movement bottleneck)을 중심으로 공동 설계된 칩 — 즉, HBM(High Bandwidth Memory)을 가깝게 배치한 대형 컴퓨팅 칩렛(compute chiplet) — 은 초기 테스트에서 훨씬 더 나은 와트당 성능(performance-per-watt)으로 동일한 토큰을 제공할 수 있으며(최종 수치는 아직 측정 중입니다), 이는 OpenAI의 규모에서 서비스 비용을 실질적으로 변화시킵니다.

Jalapeño는 GPU와 어떻게 다른가요?

GPU는 범용적입니다. 학습, 그래픽, 그리고 어떤 모델이든 실행할 수 있는 수천 개의 프로그래밍 가능한 코어를 가지고 있습니다. Jalapeño는 오직 LLM 추론만을 위해 구축된 ASIC입니다. 따라서 학습을 할 수 없으며 범용 GPU보다 훨씬 덜 유연합니다. 이것이 바로 트레이드오프(trade-off)입니다. GPU의 다재다능함을 포기하는 대신, 병목 현상이 단순 산술 연산이 아닌 데이터 이동일 때 가장 중요한 요소인 메모리와 연산 사이의 더 짧고 빠른 경로를 얻습니다. 맞춤형 ASIC은 하나의 워크로드(workload)를 엄청나고 지속적인 규모로 실행할 때만 이득을 볼 수 있습니다.

원문은 Learn AI Visually에 게시되었습니다.