AI 기술의 추론 시대: 왜 ON Semiconductor가 차세대 Nvidia가 될 수 있는가 — 그리고 엔지니어들이 메워야 할 조정 격차 - Insights | Molayo

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 21일

AI 기술은 추론 (Inference) 시대로 진입하고 있습니다 — 그리고 이 시대에서 승리하는 기업은 가장 많은 GPU를 보유한 기업이 아니라, 조정 (Coordination) 문제를 해결한 기업이 될 것입니다. Yahoo Finance는 최근 ON Semiconductor가 AI 추론의 Nvidia가 될 수 있다는 주장을 담은 기사를 게재했습니다 — 그리고 그 논리 안에는 대부분의 AI 리더들이 적극적으로 놓치고 있는 시스템적 진실이 숨겨져 있습니다. 전력 반도체 (Power-semiconductor) 제조사들에게 보상을 주는 동일한 AI 기술 변화는, 아무도 벤치마크하지 않는 취약한 계층을 드러내기도 합니다.

추론 (Inference) 지출이 데이터 센터 인프라 지출을 추월하려 하고 있습니다. 이러한 변화는 모든 것을 바꿉니다. 이는 AI를 자본 프로젝트 (Capital project)에서 운영 비용 (Operating cost)으로 전환시키며, 아무도 벤치마크하지 않는 스택의 계층인 조정 계층 (Coordination layer)을 노출시킵니다. 이 글은 금융적 이야기를 엔지니어링 현실에 투영합니다 — 왜냐하면 이 둘은 서로 다른 고도에서 이야기되는 동일한 이야기이기 때문입니다.

글을 마칠 때쯤이면, 왜 추론 (Inference)으로의 전환이 중요한지, ON Semiconductor의 수치가 실제로 무엇을 의미하는지, 그리고 동일한 역학이 한 단계 위 계층인 LangGraph, AutoGen, 그리고 MCP를 이용한 멀티 에이전트 오케스트레이션 (Multi-agent orchestration)에서 어떻게 전개되는지 이해하게 될 것입니다.

ON Semiconductor power chip illustration representing AI inference data center power technology

The Motley Fool의 논지: ON Semiconductor의 전력 및 센싱 칩은 이 회사를 추론 시대의 주요 수혜자로 자리매김하게 합니다. 출처

명명된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (The AI Coordination Gap)는 개별 AI 구성 요소(칩, 모델, 에이전트)가 얼마나 훌륭해졌는지와, 우리가 이를 신뢰할 수 있는 엔드 투 엔드 (end-to-end) 시스템으로 얼마나 형편없이 오케스트레이션 (orchestration) 하는지 사이의 벌어지는 간극을 의미합니다. 이는 각 부분은 고립된 상태에서 높은 점수를 받지만, 전체 파이프라인은 조용히 성능이 저하되는 시스템적 실패 모드 (failure mode)를 지칭합니다.

개요: 무엇이 발표되었으며 왜 중요한가

2026년 6월 20일, Lee Samaha는 Yahoo Finance에 신디케이트된 The Motley Fool의 기사 ","이 회사가 AI 추론의 Nvidia가 될 수 있다.""를 발표했습니다. 핵심 주장은 다음과 같습니다: AI 기술 지출이 _훈련 인프라 (training infrastructure)_에서 _추론 (inference)_으로 이동함에 따라, 전력 반도체 기업인 **ON Semiconductor (NASDAQ: ON)**가 주요 수혜자가 되기에 이상적인 위치에 있다는 것입니다.

이 논거는 시니어 엔지니어들이 이미 컴퓨팅 비용에서 느끼고 있는 구조적 통찰에 기반합니다. 훈련은 한 번 지불하는 자본 지출 (capital expense)입니다. 추론은 영원히 지불해야 하는 운영 비용 (operating cost)입니다. 기사에서 언급했듯이, 인프라가 구축된 후에는 "추론이 지출의 대부분을 차지하게 될 가능성이 높습니다." 추론은 전력 소모가 크고, 열 관리 (thermal management)가 필요하며, 끊임없이 확장됩니다. 이는 정확히 ON Semiconductor의 전력 및 센싱 칩이 활약하는 영역입니다. 더 넓은 경제적 관점 또한 국제 에너지 기구 (International Energy Agency)가 데이터 센터 전력 수요에 대해 예측한 내용과 일치합니다.

이 논거를 뒷받침하는 수치는 구체적입니다. Yahoo Finance / Motley Fool 보고서에 따르면, ON Semiconductor의 데이터 센터 매출은 1분기에 30% 증가했으며, 2025년 매출 60억 달러 중 2억 5천만 달러에 달하는 수준이었습니다. 이 회사는 명백한 Nvidia 파트너로서, 차세대 데이터 센터뿐만 아니라 하이퍼스케일러 (Hyperscaler) 데이터 센터, 기업용 및 엣지 추론 (Edge inference)을 위한 전력 기술을 공급하고 있습니다. 칩 수요에 대한 더 넓은 맥락은 반도체 산업 협회 (Semiconductor Industry Association)를 참조하십시오.

왜 전력 칩 이야기가 AI 기술 섹션에 실려야 할까요? 그것은 한 단계 위 추상화 계층(Abstraction layer)에 있는 문제의 완벽한 거울이기 때문입니다. 시장은 마침내 _명백한 자원 문제가 해결되면 병목 현상이 이동한다_는 진실을 가격에 반영하기 시작했습니다. 모두가 GPU를 갖게 되면, 제약 요인은 전력 공급 (Power delivery)과 열 관리 (Thermal coordination)가 됩니다. 모두가 유능한 모델을 갖게 되면, 제약 요인은 에이전트 조정 (Agent coordination) — 즉, AI 조정 격차 (AI Coordination Gap)가 됩니다. 동일한 역학 관계가 다른 계층에서 나타나는 것입니다. 저희는 AI 인프라 개요 (AI infrastructure overview)에서 스택 전반에 걸친 이러한 패턴을 추적합니다.

30%
ON Semiconductor 1분기 데이터 센터 매출 성장률
[Yahoo Finance / Motley Fool, 2026](https://finance.yahoo.com/technology/ai/articles/company-could-become-nvidia-ai-212000227.html)
...

학습 (Training)은 예산 회의입니다. 추론 (Inference)은 신진대사입니다. 구축 (Build)이 아닌, 신진대사에 동력을 공급하는 기업이 향후 10년을 지배할 것입니다.

이것은 무엇인가: 비전문가를 위한 추론 전환 (Inference Shift) 설명

명확하게 말씀드리겠습니다. AI 모델을 구축하는 데는 비용이 발생하는 방식이 완전히 다른 두 가지 별개의 단계가 있습니다.

**학습 (Training)**은 모델을 가르치는 일회성의, 매우 비용이 많이 드는 과정입니다. 수천 개의 GPU를 구매하고, 몇 주 동안 풀가동하며, 이를 수용하기 위해 거대한 데이터 센터를 건설합니다. 이것은 공장을 건설하는 것과 같은 _자본 예산 (Capital budget)_입니다. 한 번 지불하고 다음 단계로 넘어갑니다.

**추론 (Inference)**은 누군가가 실제로 모델을 사용할 때마다 발생하는 모든 과정입니다. 모든 ChatGPT 질의, 모든 Copilot 자동 완성, 모든 고객 서비스 에이전트의 답변이 이에 해당합니다. 이것이 바로 *운영 비용 (Operating cost)*입니다. 공장이 가동되기 시작하면 멈추지 않고 계속 나오는 전기 요금과 같습니다. 그리고 학습 (Training)과 달리, 추론은 채택 규모에 따라 확장되므로, 즉 계속해서 증가하기만 합니다.

Yahoo Finance의 논지는 간단합니다. 우리는 거대한 구축 단계의 끝에 와 있으며, 거대한 사용 단계의 시작점에 와 있다는 것입니다. 기사에서 언급했듯이, 인프라 지출은 "하이퍼스케일러 (Hyperscalers)들이 미래의 성장을 지원하기 위해 구축을 서두르면서 현재 붐을 이루고 있지만", 추론은 "결국 장부를 지배하게 될 지속적인 운영 비용으로 간주될 수 있습니다". 이것이 오늘날 AI 기술 경제학의 핵심적인 변곡점이며, McKinsey의 AI 연구에서 발견된 내용과도 일맥상통합니다.

ON Semiconductor는 AI의 두뇌를 만들지 않습니다. Nvidia가 만듭니다. ON Semiconductor는 전력 및 센싱 칩 (Power and sensing chips), 즉 깨끗한 전력을 공급하고, 전압을 관리하며, 열을 제어하는 부품을 만듭니다. 랙 (Racks)이 높은 가동률로 24시간 내내 돌아가는 추론 중심의 세상에서, 전력 효율과 열 관리 (Thermal management)는 부차적인 관심사가 아닙니다. 그것이 바로 비용 그 자체입니다. 새로운 에이전트 중심의 환경에 대해 더 자세히 알고 싶다면, 당사의 AI 에이전트 입문서 (AI agents primer)를 참조하십시오.

ON Semiconductor는 Lee Samaha가 2026년에 매수해야 할 최우선 종목으로 꼽았던 기업으로, 원래는 EV 및 산업용 시장이 변곡점에 도달했다는 강점을 바탕으로 선정되었습니다. AI 추론이라는 관점은 아무도 완전히 가격에 반영하지 않았던 추가 상승 동력입니다.

Diagram comparing AI training capital expense versus inference operating cost over time

추론으로의 전환: 학습은 일회성 자본 급증(Capital spike)이지만, 추론은 영구적인 운영 경사(Operating slope)입니다. 그리고 ON Semiconductor는 급증 지점이 아닌 그 경사면에 자리 잡고 있습니다.

작동 원리: 전력 공급부터 조정 격차까지

그 메커니즘은 다음과 같습니다. 현대적인 AI 데이터 센터는 의존성(dependencies)의 적층 구조입니다. Nvidia GPU는 연산을 수행합니다. 하지만 정밀하고 효율적인 전력 공급(power delivery)과 열 조절(thermal regulation)이 없다면 그 GPU들은 무용지물이며, 바로 이 지점이 전력 반도체(power semiconductors)가 존재하는 영역입니다. 추론(inference) 워크로드가 확장됨에 따라, 쿼리당 한계 비용(marginal cost)은 이미 구매한 실리콘(silicon)이 아니라 에너지와 냉각 비용에 의해 결정됩니다.

추론 전력 스택 — ON Semiconductor가 연결되는 지점

  1

    **그리드(Grid) → 데이터 센터 전원 공급 장치**

가공되지 않은 AC 전력이 들어옵니다. 전력 반도체(ON Semiconductor의 영역)가 이를 변환하고 조절합니다. 여기서 발생하는 효율 손실은 매번 이루어지는 모든 추론 호출(inference call) 시마다 영구적으로 지불됩니다.

↓

  2
...

깨끗한 DC 전력이 연산 장치(compute)에 공급됩니다. 열 감지 칩(thermal sensing chips)이 열을 모니터링하고 관리하여, 랙(rack)이 스로틀링(throttling) 없이 높은 가동률로 작동할 수 있게 합니다.

↓

  3
...

모델이 토큰(tokens)을 생성합니다. 이것이 사용자가 비용을 지불하는 작업 단위입니다. 토큰당 비용은 단계 1과 2에서의 에너지 효율성에 의해 결정되는 함수입니다.

↓

  4
...

LangGraph나 AutoGen과 같은 오케스트레이터(orchestrators)에 의해 여러 모델 호출이 체인(chained)으로 연결됩니다. 바로 이 지점에서 AI 조정 격차(AI Coordination Gap)가 나타납니다 — 효율적인 하드웨어, 그러나 취약한 워크플로(workflows).

↓

  5
...

최종 결과물: 해결된 티켓, 생성된 보고서, 체결된 계약. 여기서의 신뢰성은 모든 상위 단계(upstream step)의 산물이며, 이는 아래로 내려갈수록 빠르게 복리로 누적됩니다.

ON Semiconductor를 전력 계층에서 가치 있게 만드는 것과 동일한 효율성 논리가, 한 계층 위인 오케스트레이션(orchestration)에도 적용됩니다 — 두 가지 모두 부품의 문제로 위장된 조정(coordination)의 문제입니다.

새롭게 정의된 프레임워크

AI 조정 격차 (적용)

하드웨어 계층에서 조정 격차(Coordination Gap)는 원시 GPU FLOPS와 실제로 사용 가능하며 전력이 공급되고 냉각된 연산(compute) 사이의 손실을 의미합니다. 소프트웨어 계층에서 이는 97% 신뢰도의 모델 호출과, 조용히 17%의 확률로 실패하는 다단계 에이전트 워크플로(agent workflow) 사이의 손실을 의미합니다. 동일한 격차이지만, 고도가 다를 뿐입니다.

이것이야말로 모든 AI 리더들이 귀를 쫑긋 세우게 만들 부분입니다. 시장은 ON Semiconductor가 물리적(physical) 조정 문제를 해결한 것에 대해 보상하고 있습니다. 하지만 논리적(logical) 조정 문제, 즉 모델 호출(model calls), 도구(tools), 검색(retrieval), 에이전트(agents)를 전체적으로 성능 저하 없이 연결하는 문제를 해결한 사람에게는 아직 거의 아무도 보상을 받고 있지 못합니다. 그 격차는 열려 있습니다. 그리고 지금 당장 사람들에게 돈을 손해 입히고 있습니다. 저희의 에이전트 신뢰성 가이드에서 패턴들을 분석했습니다.

각 단계가 97% 신뢰성을 가진 6단계 파이프라인은 전체적으로 볼 때 83%의 신뢰성만을 갖게 됩니다. 대부분의 기업들은 이미 제품을 생산에 투입한 후에야 이 사실을 발견합니다.

완전한 역량 목록: 추론 시대 스택이 실제로 제공하는 것들

재무적 가설(financial thesis)을 엔지니어링 스택에 매핑하여, 추론 시대가 실제로 무엇을 제공하는지 구체적인 내용을 포함해 설명합니다:

지속적이고 저렴한 추론(Persistent, low-cost inference) — ON Semiconductor 계층에서 전력 효율성이 개선되면 토큰당 비용이 떨어져, 항상 작동하는 에이전트가 경제적으로 실행 가능해집니다.
엣지 추론(Edge inference) — Yahoo Finance 기사는 명시적으로

내면화해야 할 문구는 다음과 같습니다: "추론(inference) 지출이 몇 년 안에 데이터 센터 인프라를 위한 지출을 넘어설 것이다." 운영 비용(operating cost)이 자본 비용(capital cost)을 추월하게 되면, AI 경제의 전체 투자 논리(investment thesis)가 뒤바뀌며, 엔지니어링 노력이 투입되어야 할 방향 또한 바뀝니다.

AI 기술의 추론 시대: 왜 ON Semiconductor가 차세대 Nvidia가 될 수 있는가 — 그리고 엔지니어들이 메워야 할 조정 격차

요약

핵심 포인트