OpenAI의 Jalapeño 칩: 맞춤형 추론 ASIC가 LLM 실행 경제학을 바꾸는 이유
요약
OpenAI가 Broadcom과 협력하여 개발한 맞춤형 추론 ASIC인 Jalapeño 칩을 공개했습니다. 이 칩은 트랜스포머 모델의 메모리 대역폭 병목 현상을 해결하도록 설계되어, 기존 GPU 대비 토큰당 추론 비용을 약 50% 절감할 수 있습니다.
핵심 포인트
- Jalapeño는 LLM 추론에 최적화된 맞춤형 ASIC 설계
- 메모리 대역폭 병목 현상 해결을 위한 HBM 통합 및 대형 칩렛 구조
- Broadcom의 기술과 AI 보조 설계를 통해 개발 주기 9개월로 단축
- 기존 GPU 대비 토큰당 추론 비용 약 50% 절감 기대
OpenAI의 Jalapeño 칩: 맞춤형 추론 ASIC가 LLM 실행 경제학을 바꾸는 이유
OpenAI가 Broadcom과의 파트너십을 통해 구축한 첫 번째 맞춤형 실리콘인 Jalapeño 칩을 방금 공개했습니다. 이 발표는 2026년 6월 24일에 이루어졌으며, 헤드라인은 "OpenAI가 칩을 만들었다"라고 간단히 요약할 수 있지만, 더 흥미로운 이야기는 왜 목적에 맞게 제작된 추론 프로세서가 GPU보다 뛰어난 성능을 낼 수 있는지, 그리고 그것이 대규모 언어 모델(LLM)을 실행하는 비용에 어떤 의미를 갖는지에 대한 것입니다.
Jalapeño가 해결하려는 문제
Jalapeño가 왜 중요한지 이해하려면, 실제로 LLM 추론 성능을 제한하는 요소가 무엇인지 이해해야 합니다.
ChatGPT에 프롬프트를 보낼 때, 모델은 단순 연산 능력에 의해 병목 현상이 발생하는 것이 아니라, **메모리 대역폭 (Memory Bandwidth)**에 의해 병목 현상이 발생합니다. 트랜스포머 (Transformer) 기반 모델은 토큰을 생성할 때마다 메모리에서 연산 유닛으로 수십억 개의 파라미터를 반복적으로 로드해야 합니다. 병목 지점은 산술 연산 자체가 아니라 메모리와 로직 회로 사이의 데이터 이동입니다.
Nvidia의 Blackwell과 같은 범용 GPU는 그래픽 렌더링, 과학적 시뮬레이션, 모델 학습 및 추론 등 광범위한 워크로드를 처리하도록 설계되었습니다. 이러한 유연성에는 대가가 따릅니다. GPU는 추론 중에 유휴 상태로 머무는 많은 하드웨어를 포함하고 있으며, 그들의 메모리 아키텍처는 자기회귀적 (Autoregressive) 토큰 생성의 액세스 패턴에 특화되어 최적화되어 있지 않습니다.
ASIC (Application-Specific Integrated Circuit, 주문형 반도체)는 유연성을 희생하는 대신 효율성을 얻습니다. 트랜스포머 추론의 메모리 액세스 패턴과 연산 요구 사항에 맞춰 칩을 구체적으로 설계함으로써, 낭비되는 사이클을 제거하고 데이터를 이동하는 데 소비되는 에너지를 줄일 수 있습니다.
Jalapeño의 실체
Jalapeño는 거대한 칩입니다. 연산 칩렛 (compute chiplet)의 크기는 약 840mm²로, 이는 EUV 레티클 (reticle) 크기 제한에 근접한 수준입니다. 즉, 현재의 리소그래피 (lithography) 기술로 구현 가능한 단일 칩렛으로서 거의 최대 크기라고 할 수 있습니다. 이 칩은 하나의 I/O 칩렛과 함께 6개의 HBM (High Bandwidth Memory) 모듈을 통합하여, GPU 기반 추론 클러스터를 괴롭히는 데이터 이동 병목 현상 없이 대규모 모델을 서비스하는 데 필요한 메모리 대역폭을 제공합니다.
이 칩은 Broadcom의 Tomahawk 6 이더넷 스위치 칩과 결합되어 초당 최대 1.6테라비트의 트래픽을 처리하며, 내장된 혼잡 관리 (congestion management) 기능을 포함합니다. 대규모 추론 클러스터에서 칩 간의 네트워크 혼잡은 실제 성능을 저하시키는 치명적인 요소인데, Tomahawk 통합은 이를 하드웨어 수준에서 해결합니다. 전체 시스템을 수용하기 위해 Celestia Inc.와 함께 맞춤형 서버 랙이 설계되고 있습니다.
주목할 만한 세부 사항 중 하나는, 이 칩이 설계에서 테이프아웃 (tape-out)까지 단 9개월 만에 완료되었다는 점입니다. 일반적인 ASIC 개발 주기는 1.5년에서 2년 정도 소요됩니다. OpenAI는 이러한 압축된 일정이 Broadcom의 IP 재사용 전략과 더불어, 자체 AI 모델을 칩 설계 보조에 활용한 덕분이라고 설명합니다. 이 주장을 액면 그대로 받아들이든 아니든, 이 정도로 복잡한 칩이 9개월 주기로 개발된 것은 매우 빠른 속도입니다.
비용 관련 주장
Broadcom의 CEO Hock Tan은 초기 내부 테스트 결과, 현재 세대 GPU와 비교했을 때 토큰당 추론 비용이 약 50% 낮게 나타났다고 밝혔습니다. OpenAI는 와트당 성능 (performance-per-watt)이 "최첨단 기술보다 실질적으로 뛰어나다"고 설명하며, Broadcom은 관련 워크로드에서 이 칩이 Nvidia Blackwell 및 Google TPU와 대등한 성능을 발휘한다고 주장합니다.
이 수치들은 OpenAI 자체 실험실 테스트 결과이며 독립적으로 검증되지는 않았습니다. 또한 실험실 벤치마크는 워크로드가 더 가변적이고 예측 불가능한 실제 운영 환경과는 차이가 나는 경향이 있습니다. 향후 몇 달 내에 상세한 기술 보고서가 발표될 예정이므로, 50%라는 수치는 확정된 사실이라기보다 방향성을 제시하는 주장으로 취급해야 합니다.
그렇긴 하지만, 그 기저에 깔린 논리는 타당합니다. 만약 트랜스포머 (Transformer) 추론의 메모리 액세스 패턴 (memory access patterns)에 특화하여 하드웨어를 설계한다면, 해당 특정 작업에서 범용 GPU (General-purpose GPU)보다 더 나은 성능을 낼 수 있을 것입니다. 문제는 얼마나 더 나은지, 그리고 그 효율성이 실제 운영 규모 (production scale)에서도 유지될 수 있는지 여부입니다.
이것이 수행하지 않는 것
Jalapeño는 추론 전용 (inference-only) 칩입니다. 프런티어 모델 (frontier models)을 학습시키는 용도로 Nvidia를 대체하지는 않을 것입니다. 그러한 워크로드 (workload)에는 GPU의 유연성과 가공할 만한 연산 능력이 필요하며, Nvidia의 CUDA 생태계는 소프트웨어 툴링 (software tooling) 측면에서 10년이라는 시간적 우위를 점하고 있습니다. OpenAI는 학습용 컴퓨팅을 위해 Nvidia, AMD, Amazon과 대규모 계약을 계속 유지하고 있습니다.
또한 ASIC (주문형 반도체)에 내재된 적응성 리스크 (adaptability risk)도 존재합니다. 만약 모델 아키텍처 (model architectures)가 크게 변화한다면 — 예를 들어, 표준 트랜스포머 어텐션 패턴 (transformer attention patterns)에서 벗어나는 방향으로 이동한다면 — 오늘날의 아키텍처에 최적화된 맞춤형 칩은 효율성 우위를 잃을 수 있습니다. GPU는 용도를 변경할 수 있지만, ASIC은 일반적으로 불가능합니다. 이는 실질적인 장기적 리스크이지만, OpenAI의 추론 워크로드 규모를 고려할 때 그들이 기꺼이 감수하려는 부분일 것입니다.
배포 또한 임박한 상황은 아닙. 타임라인은 다음과 같습니다: 2026년 말 소규모 프로토타입 배포, 2027년까지 확장, 그리고 2028년 상반기에 전체 생산 단계에 진입하는 일정입니다. 비용 절감 효과가 API 가격에 반영되려면 아직 시간이 걸릴 것입니다.
이것이 광범위한 생태계에 중요한 이유
OpenAI가 이 길을 걷는 첫 번째 기업은 아닙니다. Google은 2016년부터 추론을 위해 TPU를 운영해 왔습니다. AWS에는 Trainium (학습용)과 Inferentia (추론용)가 있습니다. Microsoft에는 Maia 칩이 있습니다. 주목할 점은 역사적으로 순수 소프트웨어 기업이었던 OpenAI가 이제 모델, 데이터 센터, 네트워킹, 그리고 칩에 이르기까지 풀스택 (full stack)을 소유하려는 전략의 일환으로 자체 실리콘 (silicon)을 구축하고 있다는 사실입니다.
ML 실무자(practitioners)와 개발자들에게 있어 실질적인 영향은 몇 년 후에 나타날 것입니다. 만약 Jalapeño가 계획대로 확장된다면, OpenAI API의 추론 (inference) 비용은 2028년까지 유의미하게 감소할 것입니다. 낮은 추론 비용은 새로운 유스케이스 (use cases)를 여는 열쇠가 되는 경향이 있습니다. 토큰당 비용이 절반으로 떨어지면, 현재는 대규모로 실행하기에 너무 비용이 많이 드는 애플리케이션들이 실행 가능한 수준이 됩니다.
9개월의 개발 주기 또한 주목할 만합니다. AI 보조 칩 설계 (AI-assisted chip design)는 연구 단계의 호기심을 넘어 생산 현실로 이동하고 있습니다. 만약 AI 도구가 하드웨어 개발 기간을 이 정도로 크게 단축할 수 있다면, 산업 전반에 걸친 맞춤형 실리콘 (custom silicon) 개발 속도가 가속화될 수 있습니다.
더 큰 그림 (The Bigger Picture)
추론 병목 현상(inference bottleneck) — 연산(compute)이 아닌 메모리 대역폭(memory bandwidth) 문제 — 은 ML 인프라 세계에서 잘 알려진 문제입니다. Jalapeño가 나타내는 것은 소프트웨어적 우회책(workarounds) 대신 맞춤형 하드웨어로 이를 해결하려는 대규모의 생산 단계(production-grade) 시도입니다. 50% 비용 절감 주장이 실제 운영 환경에서도 유지될지가 진정한 시험대가 될 것입니다.
현재로서는, 이번 발표가 범용 GPU 하드웨어만으로 운영되는 AI 연구소의 시대가 끝나가고 있음을 시사합니다. 특정 모델 아키텍처와 추론 패턴에 맞춰 설계된 맞춤형 실리콘 (custom silicon)은 프런티어(frontier) 단계에서 경쟁을 위한 필수 요소가 되고 있습니다. 대규모로 지능을 서비스하는 경제학이 하드웨어 수준에서 재협상되고 있습니다.
주요 출처: OpenAI unveils its first custom chip, built by Broadcom (TechCrunch)
참고 자료: SiliconAngle — 기술 클러스터 상세 정보 | Tom's Hardware — 칩 아키텍처 | VentureBeat — 전략적 배경
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기