Apple이 방금 목소리를 외주 주었습니다
요약
Apple이 WWDC에서 Google의 Gemini를 기반으로 작동하는 새로운 Siri AI를 공개했습니다. Apple은 프라이버시 보호를 위해 온디바이스, Private Cloud Compute, Google Cloud로 이어지는 3계층 아키텍처를 구축하여 복잡한 추론을 처리합니다.
핵심 포인트
- Apple은 연간 약 10억 달러를 지불하고 커스텀 Gemini 라이선스를 확보함
- 기기 내 처리, Apple 클라우드, Google 클라우드로 이어지는 3계층 스택 도입
- 데이터 익명화 및 토큰화를 통해 사용자 프라이버시를 엄격히 유지
- 기존 ChatGPT 핸드오프 기능을 은퇴시키고 Gemini 중심 체제로 전환
6월 8일, WWDC를 여는 기조연설에서 Apple은 2024년부터 약속하고 미뤄왔던 재구축된 어시스턴트인 "Siri AI"를 공개했습니다. 데모는 정말 훌륭했습니다! 그리고 2026년에 AI가 해야 한다고 '기대'하는 모든 일들을 해냈습니다. 특히 새로운 Siri가 Google의 Gemini를 기반으로 작동한다는 점이 매우 흥미로웠습니다. Apple은 약 1.2조 개의 파라미터(parameters)를 가진 커스텀 Gemini 빌드의 라이선스를 확보했으며, 이를 위해 연간 10억 달러에 가까운 금액을 지불하고 있는 것으로 알려졌습니다. 또한 2024년 출시 당시의 핵심이었던 ChatGPT 핸드오프(hand-off) 기능을 조용히 은퇴시켰습니다. 소비자 기술 분야에서 가장 엄격하게 제어되는 하드웨어가 이제 가장 어려운 사고를 경쟁사의 모델을 통해 수행하게 된 것입니다.
엔지니어링 측면에서는 공정하게 평가하고 싶습니다. 왜냐하면 이는 매우 뛰어나며, Apple이 사용자의 일기를 Mountain View(Google 본사)로 보내버리는 식의 만화 같은 버전은 아니기 때문입니다. Apple은 3계층 스택(three-tier stack)을 구축했습니다. 단순한 요청은 기기에 머물고, 중간 정도의 난이도는 Apple의 Private Cloud Compute로 전송되며, 가장 무거운 추론(reasoning)만이 Google Cloud로 라우팅됩니다. 그곳에서 커스텀 Gemini는 E_SECRET_HARDWARE_BUT_PROBABLY_SOME_COMBINATION_OF_TPU_AND_NVIDIA 위에서 실행됩니다. 폰을 떠나는 쿼리(Queries)는 익명화 및 토큰화(tokenized)되어, Apple의 설명에 따르면 Apple도 Google도 요청을 특정 개인과 연결할 수 없습니다. 만약 뇌를 빌려 써야 한다면, 이것은 이를 연결하는 가장 신중한 방식에 가깝고, 바이트 수준의 프라이버시(privacy) 이야기도 발표 과정에서 대부분 유지되었습니다. 하지만 흥미로운 부분은 그 부분이 아닙니다.
아키텍처가 이전에 말해주던 것
2024년 6월, Apple은 특정 아키텍처 주장에 Apple Intelligence의 운명을 걸었습니다. Apple 모델의 핵심적인 속성은 그것이 기기 내에서 실행되어 데이터가 절대 외부로 유출되지 않으며, 기기 내 용량을 초과하는 드문 쿼리의 경우 암호화된 증명 (cryptographic attestation)을 갖춘 Apple 제어 엔클레이브 (enclaves) 내의 자체 하드웨어인 Private Cloud Compute로 전송된다는 점이었습니다. 제3자 모델은 사용자가 명시적으로 선택했을 때만 사용할 수 있는 보조 수단이었습니다. ChatGPT가 명시된 파트너였으며, Gemini는 논의되었으나 출시되지는 않았습니다. 계층 구조는 기기 우선, Apple의 클라우드 차선, 타사의 모델은 최하위이며 오직 선택에 의해서만 작동하는 방식이었습니다.
Apple이 걸었던 도박은 동일한 로드맵을 실행하는 실리콘 팀과 모델 팀이 2년 안에 프런티어 (frontier) 역량과의 격차를 줄일 것이라는 점이었습니다. 외부 프런티어 모델의 필요성은 일시적일 것으로 예상되었습니다.
그리고 여러 면에서 실제로 그러했습니다! 하지만 외부 세계는 훨씬 더 빠르게 움직였습니다.
격차가 벌어진 이유
2024년 말 Apple이 출시한 온디바이스 (on-device) 모델은 원래의 홍보 내용이 암시했던 모델이 아니었습니다. 그 유능한 사촌 격인 내부 프런티어 모델은 두 차례 출시가 지연되었고, WWDC 2025 조직 개편 이후 재구조화된 형태로 등장했습니다. Apple의 파운데이션 모델 (foundation-model) 그룹은 같은 기간 동안 Meta의 초지능 (superintelligence) 그룹과 Anthropic으로 핵심 인력들을 잃었습니다. 한편, Google은 Gemini 2.5, 3.0, 그리고 3.1 Pro를 약 6개월 주기로 출시하며, 각 버전마다 이전 버전이 달성하지 못한 기준을 통과했습니다. 2026년 초에 이르러 어시스턴트에 대한 Apple의 선택지는 두 가지로 좁혀졌습니다. 제대로 작동하는 Siri를 출시하거나, 아니면 2024년 마케팅 내용과 일치하는 아키텍처를 가진 Siri를 출시하는 것이었습니다. 월요일의 발표는 Apple이 어느 쪽을 선택했는지 알려주었습니다.
실제로 변한 것
월요일에 변한 것은 여러분의 바이트(bytes)가 어디로 가느냐가 아닙니다. Apple은 그 부분을 상당히 잘 설계해 두었기 때문입니다. 변한 것은 지능(intelligence)을 누가 공급하느냐입니다. 지난 10년 동안 Apple의 전체 논리, 즉 자체 칩을 설계하고 자체 프레임워크를 작성하며 쉬운 통합을 거부하는 것을 정당화했던 논리는, 스택(stack)의 모든 계층을 소유하는 것만이 기기에 대해 약속한 바를 지킬 수 있는 유일한 방법이라는 것이었습니다. 월요일에 Apple은 스마트폰, 광고, 브라우저, 그리고 이제는 모델(models)에 이르기까지 가장 직접적으로 경쟁하는 단 한 회사로부터 가장 중요한 계층을 빌려옴으로써, 비서(assistant)에 대한 약속을 지켰습니다. 그들의 "우리는 전체 스택을 소유한다"는 문구는 "우리는 생각하는 부분을 제외한 스택을 소유한다"로 바뀌었으며, 이 문장은 그 어떤 변명으로도 빠져나갈 수 없습니다.
많은 이들이 이를 "주권적 AI (sovereign AI)"에 대한 타격이라고 부르고 있으며, 시스템을 구축하는 사람들에게 중요한 작고 구체적인 의미에서 보면 어느 정도 사실입니다. Apple의 가장 전략적인 소비자 기능은 이제 경쟁사의 모델, 경쟁사의 가격 책정, 그리고 경쟁사의 출시 일정에 대한 강력한 의존성(dependency)을 갖게 되었으며, 가장 무거운 쿼리(queries)의 경우 Apple이 통제하지 못하는 관할권 내에서 실행됩니다. 대부분의 사용자는 이를 전혀 눈치채지 못할 것이고, 대부분의 쿼리는 중요하지도 않을 것입니다.
여기서 가장 크게 변한 것은 개별 쿼리가 아니라, Apple의 위치 변화를 야기한 전략입니다. 그들은 산업(및 고객의 기대치)이 자신들이 따라잡기에는 너무 빠르게 움직이고 있음을 인정했습니다.
물리적으로는 옳지만, 달력상으로는 틀린
온디바이스(on-device) 가설은 Apple이 던졌던 질문에 대한 아키텍처적으로 올바른 답이었습니다. 즉, 설계에 의한 프라이버시(privacy by construction)가 계약에 의한 프라이버시(privacy by contract)를 이기고, 온디바이스 지연 시간(latency)이 데이터 센터 왕복 시간보다 유리하다는 것입니다. Apple의 실리콘(silicon) 부문은 온디바이스 프런티어 지능(on-device frontier intelligence)을 하나의 카테고리로 만들 수 있었던 기반(substrate)을 구축하는 데 10년을 보냈습니다.
하지만 일정(calendar) 측면에서는, 그리고 나머지 세상은 이를 놓쳤습니다. Apple은 자사의 모델 팀이 실리콘(silicon) 팀과 제품 팀이 제품을 출시하는 속도만큼 빠르게 프런티어(frontier)에 도달할 수 있다고 믿었으나, 프런티어는 단일 기업의 로드맵(roadmap)보다 더 빠르게 움직였습니다. 온디바이스(on-device) 경로가 대등한 수준에 도달했을 때쯤, Google은 이미 세 세대의 모델을 더 내놓았고, OpenAI는 네 세대를 내놓았으며, Anthropic은 Mythos를 탄생시킨 티어 점프(tier jump)를 달성했습니다. 물리적 법칙(physics)은 맞았을지 몰라도 일정(calendar)은 틀렸으며, 제품 측면에서는 언제나 일정이 승리합니다.
여기에 향후 몇 년을 정의하게 될 하나의 패턴이 있습니다. 수직 계열화된 "모든 레이어(layer)를 직접 소유하는" 아키텍처(architecture)는 통제권에 관한 장기적인 질문에 대한 올바른 해답입니다. 하지만 적어도 당분간은, "이번 분기에 누가 가장 뛰어난지에 따라 조합하는" 연합형(federated) 아키텍처가 무엇을 지금 출시할 것인가라는 단기적인 질문에서 승리할 것입니다.
주의 깊게 살펴봐야 할 부분은 약 18개월 뒤부터 시작됩니다. 이는 Apple의 출시 일정에 불편을 주는 타이밍에 맞춰 출시되는 Google Gemini의 로드맵일 수도 있고, Apple의 서비스 마진(Services margin) 팀이 그동안 수호해 온 방향과는 다르게 연간 수십억 달러 규모의 임차 계약(tenancy)이 재협상되는 상황일 수도 있으며, 혹은 Apple의 타임라인이 아닌 시점에 Google의 정책 변경으로 인해 Siri가 말할 수 있는 것과 없는 것이 바뀌는 상황일 수도 있습니다. 이 중 어느 것도 아직 일어나지 않았지만, 일어날 수 있으며, 만약 발생한다면 거대한 격차(chasm)를 만들어낼 것입니다. 이는 실리콘(silicon)까지 모든 것을 소유하는 것을 자랑스럽게 여겼던 기업에게는 분명 미지의 영역(또는 적어도 수년 동안 미지의 영역이었던 곳)이며, 이제 그들은 Apple이 완전히 통제하지 못하는 일정에 따라 거대한 결정을 내려야 할 수도 있습니다.
Apple은 지난 10년 동안 전체 스택(stack)을 소유하는 것만이 약속을 지키는 유일한 방법이라고 말해왔습니다. 그리고 월요일, Apple은 사고하는 부분(the part that thinks)을 임대함으로써 그 약속을 지켰습니다.
지능형 데이터 파이프라인 (intelligent data pipelines)이 어떻게 AI 비용을 절감할 수 있는지 알고 싶으신가요? Expanso를 확인해 보세요. 아니면 안 하셔도 됩니다. 제가 감히 당신에게 무엇을 하라고 말할 처지는 아니니까요.
참고: 저는 현재 머신러닝 (machine learning)을 위한 데이터 준비 (data preparation)의 실제 현장 과제들에 대해, 운영 (operational), 컴플라이언스 (compliance), 그리고 비용 (cost) 측면에 초점을 맞춘 책을 쓰고 있습니다. 여러분의 의견을 듣고 싶습니다!!
원문은 Apple Just Subcontracted the Voice에 게시되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기