
OpenAI×Broadcom의 추론 전용 칩 「Jalapeño」와 Gemini 3.5 Flash GA: 추론 비용과 락인(Lock-in)
요약
OpenAI와 Broadcom이 LLM 추론 전용 가속기 'Jalapeño'를 발표하고, Google의 Gemini 3.5 Flash가 GA되었습니다. 이는 AI 경쟁의 축이 모델 지능을 넘어 추론 비용과 전용 하드웨어 최적화로 이동하고 있음을 시사합니다.
핵심 포인트
- OpenAI-Broadcom 협업을 통한 추론 전용 칩 Jalapeño 발표
- Gemini 3.5 Flash GA 및 구체적인 토큰당 가격 공개
- 추론 레이어의 하드웨어 수직 계열화 및 최적화 가속화
- 엔지니어는 토큰 기반의 실시간 비용 계측(Instrumentation) 체계 구축 필요
2026년 6월 24일, OpenAI와 Broadcom이 LLM 추론 전용으로 설계한 첫 자체 가속기(Accelerator) 「Jalapeño」를 발표했다. 같은 주, Google의 「Gemini 3.5 Flash」는 일반 제공(GA, General Availability)되었으며, 공식 요금 페이지에 input $1.50 / output $9.00 (백만 토큰당)이라는 구체적인 가격이 명시되었다.
별개의 뉴스처럼 보이지만, 둘 다 「추론을 어디서·얼마에 실행할 것인가」라는 레이어(Layer)에 관한 이야기다. 모델의 지능이 아니라, 추론 단가와 하드웨어가 경쟁의 축이 되고 있다. 이 기사에서는 앱 측 엔지니어/의사결정자가 이번 주에 확인해 두어야 할 사항을 1차 정보의 사실과 실무적 해석으로 나누어 정리한다.
| 확인 항목 | 뉴스의 함의 | 수정할 사항 |
|---|---|---|
| 추론 하드웨어의 분기 | 프로바이더가 추론 전용 실리콘을 자체적으로 보유하기 시작함 | 하드웨어를 전제로 하지 않고, 추론 비용을 「단가 × 토큰량」으로 측정하는 계측(Instrumentation)을 도입할 것 |
| ... |
- OpenAI와 Broadcom은 2026년 6월 24일, LLM 추론용으로 설계한 첫 「Intelligence Processor (인텔리전스 프로세서)」 Jalapeño를 발표했다. 기존의 AI 가속기를 전용한 것이 아니라, 추론용으로 제로 베이스에서 설계되었다고 정의된다.
- 설계부터 제조의 테이프아웃(Tape-out)까지 약 9개월. OpenAI 자신의 모델도 설계의 일부를 가속화했다고 알려져 있으며, 고성능 반도체로서는 매우 빠른 개발 사이클이라고 설명된다.
- 대규모 전개에는 Broadcom의 Tomahawk (Ethernet 계열) 네트워킹 실리콘을 사용하며, Celestica가 보드/랙/시스템의 양산을 담당한다.
- 초기 전개는 2026년 말을 목표로 하고 있다. 현시점에서는 「테스트 중이며, 초기 결과로서 현재의 최첨단 제품보다 대폭 뛰어난 performance-per-watt (전력 대비 성능)를 보여주고 있다」는 단계다.
Richard Ho (OpenAI 하드웨어 프로그램 책임자):
원문: "Jalapeño was designed from the ground up for LLM inference using detailed insights from our close collaboration with OpenAI researchers."
일본어 번역: 「Jalapeño는 OpenAI 연구자와의 긴밀한 협업에서 얻은 상세한 지견을 사용하여, LLM 추론을 위해 제로 베이스에서 설계되었다」
Greg Brockman (OpenAI 사장·공동 창업자):
원문: "Jalapeño is part of our long-term full-stack infrastructure strategy to make compute more abundant..."
일본어 번역: 「Jalapeño는 컴퓨팅 자원을 더욱 풍부하게 만들기 위한 장기적인 풀스택 인프라 전략의 일부다」
앱 측 엔지니어가 이 칩을 직접 다룰 일은 당분간 없다. 중요한 것은 「추론 레이어가 프로바이더 고유의 최적화로 향하고 있다」는 방향성이다. 성능·전력 효율·가격이 범용 GPU의 세계에서 각사의 전용 하드웨어로 나뉘어 가고 있다.
함의는 두 가지다. 첫째, 추론 단가는 향후 프로바이더/세대별로 비연속적으로 움직일 가능성이 있다. 가격은 내려가는 방향으로 움직이는 경우가 많지만, 이를 전제로 삼아서는 안 된다. 둘째, 자신의 비용을 「어떤 모델을 사용했는가」가 아니라 「입력/출력 토큰 × 단가」로 상시 측정할 수 있도록 해두면, 가격 개정이나 모델 전환 판단이 빨라진다. 칩의 좋고 나쁨이 아니라, 자신의 계측(Instrumentation) 유무가 병목(Bottleneck)이 된다.
- Gemini 3.5 Flash는 일반 제공(GA)되었다. Google의 공식 요금 페이지(ai.google.dev)에 유료 티어(Paid tier)로 input $1.50 / output $9.00 (백만 토큰당, 출력은 사고 토큰(Reasoning tokens) 포함)이라고 명시되어 있다.
- 멀티모달(Multimodal) 대응 모델로, Google은 코딩이나 에이전트적인 병렬 실행에 최적화된 Flash급 모델로 포지셔닝하고 있다 (「준 Pro급 성능을 Flash의 비용과 속도로」라는 슬로건)./벤치마크상의 우열은 Google 측의 주장으로 취급해야 한다.
- 동일한 「3.5」 세대라도, Gemini 3.5 Pro는 본 기사 작성 시점에서 공식 요금 페이지에 게재되어 있지 않다 (GA는 보류 중인 것으로 보인다).
여기서 핵심이 되는 것이 「모델 할당 (Model Allocation)」이다. 요약, 분류, 추출, 정형화와 같은 태스크의 상당수는 최상위 모델일 필요가 없다. Flash 가격대에서 준 플래그십(Semi-flagship)급 품질을 얻을 수 있다면, 상위 모델은 「정말로 추론 깊이 (Inference Depth)가 필요한 경로」에만 남기고 나머지를 Flash급으로 전환할 경우, 품질을 거의 떨어뜨리지 않으면서 비용을 크게 낮출 수 있는 사례가 많다.
단, 출력 비용인 $9.00/100만 토큰에는 사고 토큰 (Thinking Tokens)이 포함되어 있다는 점에 주의해야 한다. 에이전트(Agent)와 같이 출력(=사고)이 늘어나는 용도에서는 입력 단가보다 출력 단가가 더 큰 영향을 미친다. 비용 산출 시 「입력만」으로 견적을 내지 말 것.
비용 측정하기
- 모든 LLM 호출 시
model/input_tokens/output_tokens/ 예상 비용을 로그에 남길 것 - 비용을 「입력」과 「출력 (사고 포함)」으로 나누어 집계할 것 (특히 에이전트 용도)
- 월 단위로 모델별·기능별 토큰량과 단가를 점검하여, 개정 사항이 있을 경우 즉시 반영할 수 있도록 할 것
모델 할당하기
- 요약, 분류, 추출, 정형화 등 「깊은 추론이 필요 없는」 경로를 식별하여 Flash급으로 전환할 것
- 상위 모델은 「정확도가 요구사항으로 검증된 경로」로만 한정할 것
- 전환 전후로 골든 세트 (Golden Set)를 실행하여, 품질이 허용 범위 내에 있는지 수치로 확인할 것
락인 (Lock-in)에 대비하기
- 프로바이더(Provider) / 모델명을 애플리케이션 본체에 직접 작성하지 말고, 라우터 계층 (Router Layer, 얇은 추상화 계층) 뒤에 둘 것
- 프로바이더 고유 기능 (특정 출력 형식, 도구 사양 등)에 의존하는 부분을 미리 파악해 둘 것
- 특정 업체의 가격 개정이나 모델 폐지가 발생하더라도, 설정 변경만으로 대체할 수 있는 상태를 유지할 것
패턴 1: 입력 단가만으로 비용을 견적 내는 경우 → 에이전트나 긴 사고 과정을 사용하는 경로는 출력이 (사고 토큰이) 지배적이 되기 쉽다. 산출 시에는 입력과 출력을 나누고, 출력 측을 넉넉하게 잡아야 한다.
패턴 2: 하드웨어나 칩 이야기에만 몰두하는 경우 → 애플리케이션 측에서 오늘 할 수 있는 일은 칩 선정 것이 아니라, 자신의 추론 비용을 측정하는 계측 (Instrumentation)과 모델 할당이다. 손안에 계측 수단도 없이 「다음 칩이 나오면 저렴해지겠지」라며 기다리는 것이 가장 큰 낭비다.
패턴 3: 최신·최상위 모델을 모든 경로에 적용하는 경우 → 품질은 한계에 도달했는데 비용만 불어난다. 태스크별로 필요한 추론 깊이를 파악하여, Flash급과 상위 모델을 구분해서 사용해야 한다.
패턴 4: 프로바이더 이름을 코드에 직접 작성하는 경우 → 가격 개정이나 모델 폐지가 일어날 때마다 수정이 필요해진다. 라우터 계층으로 분리하여, 교체가 설정 변경만으로 가능하도록 만들어야 한다.
- OpenAI and Broadcom unveil LLM-optimized inference chip (OpenAI)
- OpenAI and Broadcom Unveil LLM-Optimized Intelligence Processor (Broadcom Investors)
- OpenAI unveils its first custom chip, built by Broadcom (TechCrunch)
- OpenAI and Broadcom unveil 'Jalapeño' Intelligence Processor for LLM inference (Data Center Dynamics)
- Gemini Developer API pricing (Google AI for Developers)
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기