Firebase AI Logic가 iOS의 하이브리드 추론을 지원! Apple Intelligence로 무료 온디바이스 AI가 현실로

2026년 5월, Firebase 공식 계정이 게시한 내용으로 인해 개인 개발자들 사이에서 술렁임이 일고 있습니다. Google I/O 2026에서 발표된 Firebase AI Logic의 하이브리드 추론 (Hybrid Inference) 기능이 드디어 iOS에서도 이용 가능해졌다는 소식입니다.

간단히 말하자면, Apple Intelligence의 Foundation Models와 클라우드의 Gemini를 자동으로 전환하는 메커니즘이 Firebase의 공식 SDK를 통해 제공된 형태입니다. 전자는 온디바이스 (On-device)에서 동작하는 3B 파라미터 모델입니다. 온디바이스 추론은 무료이므로, API 비용 문제로 AI 기능을 포기했던 게임이나 무료 앱에도 도입할 수 있습니다.

필자 또한 AdMob 수익이 발생하는 앱에 AI를 넣고 싶었지만, Gemini의 토큰 과금 문제로 이익이 깎이는 문제 때문에 고민이 많았습니다. 이번 발표는 이 고민에 대한 해답이 될 것 같습니다. 이 기사에서는 하이브리드 추론의 메커니즘과 iOS에서의 시작 방법을 정리합니다.

하이브리드 추론이란

하이브리드 추론 (Hybrid Inference)은 온디바이스 모델을 사용할 수 있는 환경에서는 로컬에서 추론하고, 사용할 수 없는 환경에서는 자동으로 클라우드 모델로 폴백 (Fallback)하는 메커니즘입니다. 역방향 폴백도 지원하여, 클라우드를 우선시하면서 오프라인 시에는 온디바이스로 전환하는 등의 구성도 가능합니다.

Firebase AI Logic의 공식 블로그에서는 세 가지 유스케이스 (Use Case)를 소개하고 있습니다.

사용자의 메모, 이메일, 기사 요약을 디바이스 내에서 완결
사진 설명문을 오프라인에서도 생성하여 접근성 향상
짧은 문장 번역은 온디바이스, 복잡한 번역은 클라우드로 구분하여 사용

온디바이스에서 동작한다는 것은 레이턴시 (Latency)가 낮고, 네트워크가 끊겨도 작동하며, 사용자의 데이터가 단말기 외부로 나가지 않는다는 것을 의미합니다. 프라이버시와 UX, 그리고 비용이라는 세 가지 요소가 동시에 개선된다는 점이 매우 큽니다.

이번 업데이트로 iOS에 무엇이 왔는가

Google I/O 2026의 Firebase 요약에 따르면, 하이브리드 추론 관련 내용은 다음과 같이 정리되어 있습니다.

플랫폼	온디바이스 모델	상태
iOS	Apple Foundation Models	이용 가능
...

지금까지 Android와 Web이 앞서 있었고, iOS는 "언제쯤 나올까"라며 기다려온 상황이었습니다. 이번 업데이트로 iOS도 실용 단계에 진입하며, 3개의 플랫폼에서 하이브리드 추론을 통합적으로 작성할 수 있게 됩니다.

iOS의 온디바이스 추론은 Apple Intelligence가 전제 조건입니다. 대응 단말기는 iPhone 15 Pro/15 Pro Max, iPhone 16 이후의 모든 모델, A17 Pro 또는 M1 이후를 탑재한 iPad, Apple Silicon을 탑재한 Mac입니다. OS는 iOS 26 이후가 조건이며, 미지원 단말기에서는 클라우드의 Gemini로 자동 폴백됩니다.

Apple Foundation Models의 내용

Foundation Models 프레임워크는 Apple이 WWDC25에서 공개한 온디바이스 LLM (Large Language Model)용 Swift API입니다. Apple 공식 발표에 따르면 대략적인 사양은 다음과 같습니다.

파라미터 수는 약 30억 (3B)
Apple Neural Engine에서 동작
입출력 상한은 4,096 토큰
추론 비용은 완전 무료
오프라인에서 동작하며, 데이터는 단말기 외부로 나가지 않음

3B 모델이기에 GPT-4나 Gemini Pro 정도의 지능을 기대할 수는 없지만, 가벼운 용도로는 충분히 사용할 수 있는 수준입니다. 요약, 분류, 간단한 문장 생성, 구조화된 출력 (Structured Output), 게임 내 대화 생성 등이 특기 분야입니다. Apple의 발표에서도 검색 제안, 게임 내 다이얼로그, 여행 일정 제안 등이 예상 유스케이스로 언급되었습니다.

4,096 토큰이라는 제약은 의외로 크게 작용합니다. 긴 문장을 통째로 요약하는 것은 어려우므로, 청크 (Chunk) 단위로 분할하거나 긴 문장만 클라우드로 폴백시킬지에 대한 판단이 필요합니다.

Swift에서의 구현 이미지

구현의 핵심은 HybridModel과 GenerativeModelSession입니다. 프라이머리 (Primary)로 온디바이스 모델을, 세컨더리 (Secondary)로 클라우드 모델을 전달해 두면, SDK가 이용 가능 여부를 판단하여 자동으로 전환해 줍니다. Firebase의 데벨로퍼 애드보케이트 (Developer Advocate)인 Peter Friese 씨의 Speaker Deck 자료에서 소개된 패턴을 참고하면 다음과 같은 방식으로 작성할 수 있습니다.

import FirebaseAI
import FoundationModels
let firebaseAI = FirebaseAI.firebaseAI(backend: .googleAI())
...

호출 측에서는 session.respond(to:)를 호출하기만 하면, 내부적으로 Apple Intelligence의 가용성(Availability)이나 컨텍스트 길이(Context Length)를 체크하여 폴백(Fallback)을 수행해 줍니다. 앱 측 코드에서 온디바이스(On-device)와 클라우드(Cloud)를 분기 처리할 필요가 없다는 점이 매우 편리합니다.

더 세밀하게 제어하고 싶다면, 프로토콜(Protocol)을 통해 자체 인터페이스를 구현하는 방법도 있습니다.

protocol Inferencer {
var isAvailable: Bool { get }
func infer(prompt: String) async throws -> String
...

이렇게 구성해 두면, 구독 사용자만 클라우드를 사용하게 하거나 특정 기능만 온디바이스로 제한하는 등의 분기 처리가 용이해집니다.

추론 모드(Inference Mode)는 Android 버전과 마찬가지로 4가지 종류가 있으며, 폴백 동작을 상세하게 지정할 수 있습니다.

PREFER_ON_DEVICE

온디바이스 우선, 불가능할 경우 클라우드 사용 -
ONLY_ON_DEVICE

온디바이스 전용, 사용 불가능할 경우 에러 발생 -
PREFER_IN_CLOUD

클라우드 우선, 불가능할 경우 온디바이스 사용 -
ONLY_IN_CLOUD

클라우드 전용

비용에 대한 관점이 완전히 바뀐다

이 부분이 개인 개발자로서 가장 신경 쓰이는 포인트일 것입니다.

지금까지 AI를 앱에 통합하려고 하면 사용자 1인당 발생하는 API 비용이 가장 큰 걸림돌이었습니다. AdMob의 광고 수익은 사용자 1인당 몇 원에서 수십 원 수준이므로, Gemini API의 토큰 과금이 쌓이면 순식간에 적자로 돌아섭니다. Flash 모델의 Input 비용이 $0.075/1M tokens라 하더라도, 헤비 유저가 매일 사용한다면 월 수십 원에서 수백 원의 비용이 발생하며, 이는 무료 사용자에게 적용하기 매우 부담스럽습니다.

하이브리드 추론(Hybrid Inference)을 사용하면, Apple Intelligence 지원 단말기에서는 API 비용이 0원입니다. 클라우드 측으로 폴백하는 경우는 지원 단말기를 보유하지 않은 사용자이거나, 온디바이스에서 처리하기 어려운 긴 프롬프트(Prompt)를 다룰 때뿐입니다. 비용 프로필이 '모두가 동일하게 클라우드 사용'에서 '일부만 클라우드 사용'으로 바뀌기 때문에, AI를 탑재할지에 대한 판단 기준이 훨씬 완화됩니다.

게임 개발이라는 맥락에서는 그 영향이 더욱 크다고 느껴집니다. 예를 들어 다음과 같은 기능들은 기존에는 비용 문제로 어려웠으나, 온디바이스에서 동작한다면 현실적인 선택지가 됩니다.

NPC의 대화를 매번 동적으로 생성
플레이어의 행동 이력으로부터 이야기를 분기
아이템 이름이나 플레이버 텍스트(Flavor Text)를 플레이 중에 생성
플레이어 고유의 힌트를 상황에 맞춰 제공

Apple도 공식적으로 인게임 다이얼로그(In-Game Dialog)를 유스케이스(Use Case)로 언급하고 있는 만큼, 게임에서의 활용을 의도하고 있는 듯합니다. 30억 개의 파라미터(Parameter) 정도라면 정형화된 NPC 대사의 변형 생성이나 간단한 퀘스트 설명문 생성 정도는 충분히 수행할 수 있을 것입니다.

주의해야 할 포인트

편리하지만, 몇 가지 짚고 넘어가야 할 주의사항도 있습니다.

먼저 컨텍스트 윈도우(Context Window)가 4,096 토큰으로 제한되어 있다는 점입니다. 일본어 기준으로 대략 3,000자 정도가 상한선입니다. 긴 문장을 다루는 기능에서는 exceededContextWindowSize 에러를 포착하여 클라우드로 폴백하도록 구현하는 것이 안전합니다. 공식 타입 명칭은 LanguageModelSession.GenerationError.exceededContextWindowSize입니다.

다음으로, 아직 온디바이스 추론에서 사용할 수 없는 기능들이 있습니다. 웹 버전 문서를 보면 멀티턴 채팅(Multi-turn Chat), 음성·영상·문서 분석, 이미지 생성, 함수 호출(Function Calling), 그라운딩(Grounding) 등의 기능은 온디바이스 측에서 지원되지 않습니다. 이러한 기능이 필요한 경우에는 처음부터 클라우드 측으로 요청을 보내도록 설계해야 합니다.

또한, Firebase AI Logic을 사용하는 이상 Firebase App Check 설정은 필수적입니다. 클라우드로 폴백했을 때 API 키가 제3자에게 악용되는 것을 방지하기 위함이며, 공식 문서에서도 출시 전 필수 항목으로 안내하고 있습니다.

마지막으로 Firebase SDK 버전 요구사항입니다. Apple 플랫폼용은 firebase-ios-sdk

v12.5.0 이상이 필요하므로, 기존 프로젝트에 포함하는 경우에는 SPM이나 CocoaPods 의존성을 업데이트해 주세요.

요약

Firebase AI Logic의 하이브리드 AI 기능이 iOS에 도입됨에 따라, Apple Intelligence의 온디바이스 모델 (On-device model)과 Gemini 클라우드를 통일된 API로 다룰 수 있게 되었습니다. SDK v12.5.0 이상을 설치하고 HybridModel을 초기화하는 것만으로, 지원 기기에서는 온디바이스에서 무료 추론을 수행하고, 그 외의 경우에는 클라우드로 자동 폴백 (Fallback)되는 구성을 구축할 수 있습니다.

지금까지 "비용이 맞지 않는다"는 이유로 AI 도입을 포기했던 무료 앱이나 게임에서도, AI 기능을 탑재할 수 있는 여지가 크게 넓어졌습니다. NPC의 동적 대화, 플레이어별 플레이버 텍스트 (Flavor text), 오프라인 요약 및 번역 등 떠오르는 아이디어는 다양합니다.

필자도 조만간 평소 사용하는 Flutter가 아닌 Swift 측에서 무언가 실험적으로 구현해 볼 생각입니다. 혹시 시도해 보신 분이 있다면 꼭 소감을 알려주세요.