OpenAI와 Broadcom, LLM에 최적화된 추론 칩 공개

초기 테스트 결과, 1세대 가속기는 현재의 최첨단 기술(state-of-the-art)보다 와트당 성능(performance per watt)을 실질적으로 더 높게 제공할 것으로 나타났습니다.
업계 전반의 현재 및 미래 LLM을 위해 처음부터 설계되었습니다.
OpenAI의 모델들을 통해 가속화되어 설계부터 생산까지 9개월 만에 개발되었습니다.
제품에서 모델, 그리고 이제 칩에 이르기까지 OpenAI의 풀스택(full-stack) 플랫폼을 확장합니다.
데이터 센터 파트너들과 함께 여러 세대에 걸쳐 기가와트(gigawatt) 규모로 배포될 예정입니다.

OpenAI와 Broadcom (NASDAQ: AVGO)은 오늘 OpenAI의 첫 번째 지능형 프로세서(Intelligence Processor)인 Jalapeño를 공개했습니다. 이는 OpenAI의 LLM 추론 미래 비전을 중심으로 설계된 가속기이며, 고급 AI를 더 빠르고, 더 신뢰할 수 있으며, 더 많은 사람들이 접근할 수 있도록 양사가 함께 구축하고 있는 다세대 컴퓨팅 플랫폼의 첫 번째 AI 가속기입니다.

OpenAI and Broadcom leaders display the Jalapeño inference chip.

Jalapeño는 Broadcom의 사장 겸 CEO인 Hock Tan과 사장 Charlie Kawwas에 의해 OpenAI의 CEO Sam Altman과 사장 Greg Brockman에게 전달되었으며, 이는 모델과 제품 뒤의 풀스택을 구축하려는 OpenAI 전략의 중요한 단계를 나타냅니다.

OpenAI는 모델, 커널(kernels), 서빙 시스템(serving systems) 및 제품 요구 사항에 대한 로드맵을 바탕으로 한 LLM 기초에 대한 깊은 이해를 토대로 칩을 처음부터 설계했습니다. 파트너사인 Broadcom 및 Celestica는 칩 구현, 보드, 랙 시스템 통합, 고성능 네트워킹 및 확장 가능한 생산 시스템을 통해 플랫폼의 산업화를 지원했습니다. Jalapeño는 업계 전반의 현재 및 미래 AI 모델의 추론 요구 사항에 대한 OpenAI의 통찰력을 바탕으로 모든 LLM과 작동할 수 있는 유연성을 갖추도록 설계되었습니다. Jalapeño 칩의 엔지니어링 샘플은 GPT-5.3-Codex-Spark를 포함하여, 생산 목표 주파수 및 전력 수준에서 연구실 내 ML 워크로드를 실행하고 있습니다.

OpenAI가 최종 성능을 측정하는 동안이지만, 초기 테스트 결과에 따르면 Jalapeño는 현재의 최첨단 (state-of-the-art) 기술보다 실질적으로 더 나은 와트당 성능 (performance per watt)을 제공할 것으로 보입니다. 성능에 관한 상세한 기술 보고서는 향후 몇 달 내에 발표될 예정입니다. 이 아키텍처는 데이터 이동을 줄이고 연산 (compute), 메모리 (memory), 네트워킹 (networking) 자원의 균형을 맞춤으로써, 이론적 최대 성능 (theoretical peak performance)에 훨씬 더 근접한 실질적 활용률 (realized utilization)을 달성합니다. Tomahawk 네트워킹 실리콘을 포함한 Broadcom의 실리콘 구현 및 네트워킹 기술은 이 플랫폼을 대규모 생산으로 이어지도록 돕습니다.

"세계는 컴퓨팅 기반의 경제로 이동하고 있습니다."라고 OpenAI의 사장이자 공동 창립자인 Greg Brockman은 말했습니다. "Jalapeño는 컴퓨팅을 더욱 풍부하게 만들기 위한 우리의 장기적인 풀스택 (full-stack) 인프라 전략의 일부이며, 이를 통해 더 빠르고, 더 신뢰할 수 있으며, 개인과 기업 모두에게 더 저렴하고, 더 중요한 문제들을 해결하는 데 사용될 수 있는 AI를 구현할 것입니다. 스택 (stack)의 더 많은 부분을 직접 설계함으로써, 우리는 더 큰 효율성으로 더 많은 지능을 제공할 수 있으며, 첨단 AI가 더 폭넓게 보급될 수 있도록 계속해서 밀어붙일 수 있습니다."

"Jalapeño는 OpenAI 연구원들과의 긴밀한 협업을 통해 얻은 상세한 통찰력을 바탕으로 LLM 추론 (inference)을 위해 처음부터 설계되었습니다."라고 OpenAI의 하드웨어 프로그램을 이끄는 Richard Ho는 말했습니다. "우리는 프런티어 (frontier) AI 모델에 가장 중요한 커널 (kernels), 메모리 이동 (memory movement), 네트워킹 (networking), 그리고 서빙 패턴 (serving patterns)을 중심으로 아키텍처를 최적화했습니다. 초기 테스트를 바탕으로, Jalapeño는 하드웨어의 이론적 한계에 근접하여 우리의 가장 중요한 워크로드 (workloads)를 효율적으로 실행할 것입니다."

"OpenAI와의 협업은 향후 10년 동안 AI에 필요한 물리적 인프라를 확장하기 위한 근본적인 약속을 의미합니다."라고 Broadcom의 사장이자 CEO인 Hock Tan은 말했습니다. "이것은 다세대 로드맵 (multi-generation roadmap)의 시작일 뿐입니다. 업계 선도적인 실리콘을 OpenAI와 직접 공동 개발함으로써, 우리는 2026년부터 Microsoft 및 기타 파트너들과 함께 기가와트 (gigawatt) 규모의 데이터 센터 배포를 가능하게 할 것입니다."

Jalapeño는 이전의 AI 워크로드로부터 변형된 범용 가속기(general-purpose accelerator)가 아니라, 현대적인 LLM 추론(inference)을 위해 백지 상태에서 설계된 디자인입니다. 이는 OpenAI가 ChatGPT, Codex, API 및 향후 에이전트 제품(agentic products) 전반에 걸쳐 매일 실행하는 시스템을 바탕으로 구축되었으며, 동시에 업계 전반의 현재 및 미래 LLM을 위해 설계되었습니다. 목표는 오늘날 선도적인 AI 가속기(accelerators)의 성능과 처리량(throughput)을 결합하면서도, 가장 빠른 특화된 추론 시스템에 근접한 지연 시간(latency)을 구현하여 Jalapeño가 대규모의 대화형 LLM 제품에 매우 적합하도록 만드는 것입니다.

이것이 바로 풀스택(full-stack)의 이점입니다. OpenAI는 프런티어 모델(frontier models)을 개발하거나 그 위에 제품을 구축할 뿐만 아니라, 그 밑단의 인프라(infrastructure)를 직접 설계하고 있습니다. 즉, 칩 아키텍처(chip architecture), 커널(kernels), 메모리 시스템(memory systems), 네트워킹(networking), 스케줄링(scheduling), 배포 시스템(deployment systems) 및 제품 경험(product experience)을 모두 다룹니다. OpenAI는 스택 전체에 걸쳐 운영되기 때문에, 각 계층은 모델을 사용자에게 더 빠르고, 더 신뢰할 수 있으며, 더 저렴하게 제공한다는 동일한 목표를 중심으로 최적화될 수 있습니다.

Jalapeño는 OpenAI의 발전을 뒷받침하는 플라이휠(flywheel)을 강화합니다. 더 나은 인프라는 컴퓨팅 효율성(compute efficiency)을 높입니다. 더 높은 컴퓨팅 효율성은 더 나은 학습(training)과 서빙(serving)을 가능하게 하며, 궁극적으로 더 유능한 AI 모델을 구동합니다. 더 나은 모델은 사람, 개발자 및 기업을 위한 더 나은 제품이 됩니다. 더 나은 제품은 더 많은 사용량, 더 많은 고객 및 더 많은 수익을 창출하며, 이는 OpenAI가 차세대 인프라에 재투자할 수 있게 합니다. 시간이 흐름에 따라 이러한 순환 구조는 지능을 모두에게 더 유능하고, 더 신뢰할 수 있으며, 더 저렴하게 만드는 데 기여합니다.

Jalapeño는 초기 설계부터 제조 테이프아웃 (tape-out)까지 단 9개월 만에 공동 개발되었으며, 이 맞춤형 AI 가속기 (AI accelerator) 프로그램은 고성능 첨단 반도체 분야에서 역대 가장 빠른 ASIC 개발 주기를 달성한 것으로 믿어지는 사례입니다. 이러한 속도는 OpenAI 엔지니어링 팀과의 심도 있는 소프트웨어-하드웨어 공동 개발 (software-hardware co-development), Broadcom의 실리콘 구현 (silicon implementation) 전문성, 그리고 설계 및 최적화 프로세스의 일부를 가속화하기 위한 OpenAI 모델의 활용을 반영합니다.

사용자에게 제공되는 것과 동일한 모델들이 미래의 모델을 실행하는 데 사용되는 인프라를 개선하는 데 도움을 주고 있습니다. 만약 AI가 엔지니어들이 더 나은 칩을 더 빠르게 설계하도록 도울 수 있다면, 산업 전반의 컴퓨팅 비용을 낮추고 첨단 AI에 대한 접근성을 민주화하는 데 기여할 수 있습니다.

Jalapeño는 2026년 말까지 초기 배포를 목표로 설계되었으며 향후 몇 년간 확장될 다세대 컴퓨팅 플랫폼의 첫 번째 단계입니다. 이 플랫폼은 OpenAI가 설계한 가속기, Broadcom의 실리콘 구현, 네트워킹 및 연결 기술, 그리고 Celestica의 보드, 랙 및 시스템 전문성을 결합합니다.

이 작업의 목적은 간단합니다. 추론 (inference)은 AI가 사람들에게 닿는 지점입니다. 비용, 속도 및 신뢰성의 모든 개선은 더 빠른 ChatGPT 답변, 대기 시간이 줄어든 더 많은 단계를 수행할 수 있는 Codex 작업, 구축 비용이 더 저렴한 API 제품, 또는 수요가 높을 때 더 안정적인 접근성으로 나타날 수 있습니다.

AI를 민주화한다는 것은 첨단 모델을 더 많은 사람이 매일 사용할 수 있도록 가용하고, 신뢰할 수 있으며, 저렴하게 만드는 것을 의미합니다. Jalapeño는 OpenAI가 자사의 인프라를 학생, 개발자, 소기업, 연구원, 기업, 그리고 배우고 창조하거나 어려운 문제를 해결하려는 모든 이들을 위한 유용한 지능으로 전환하는 데 도움을 줍니다.

OpenAI와 Broadcom, LLM에 최적화된 추론 칩 공개

요약

핵심 포인트

댓글