.tflite 파일의 경계를 넘어: MediaPipe Tasks와 AICore로 고성능 엣지 AI 마스터하기

수년 동안 안드로이드 개발자가 온디바이스 머신러닝(ML)을 구현하려는 워크플로우는 예측 가능하지만, 지치게 만드는 패턴을 따랐습니다. .tflite 모델을 다운로드하여 assets 폴더에 넣고, 장황한 보일러플레이트 코드를 작성할 준비를 해야 했습니다. 텐서 버퍼(tensor buffers)를 수동으로 처리하고, 복잡한 이미지 크기 조정을 관리하며, 픽셀 값을 정규화하고, 읽을 수 없는 원시 float 배열을 사람이 실제로 사용할 수 있는 형태로 파싱해야 했습니다.

이는 현대적인 앱 개발이라기보다는 수동 메모리 관리와 같은 저수준(low-level) 조작의 세계였습니다. 하지만 엣지 AI의 지형은 변화하고 있습니다. 우리는 명령형 텐서 조작에서 벗어나 **선언적 파이프라인 오케스트레이션(declarative pipeline orchestration)**으로 이동하고 있습니다.

본 심층 분석에서는 MediaPipe Tasks가 가져온 아키텍처 혁명, AICore의 시스템 수준 지능, 그리고 최신 Kotlin을 사용하여 프로덕션 레디 고성능 AI 파이프라인을 구축하는 방법을 탐구할 것입니다.

추상화의 아키텍처: MediaPipe Tasks가 중요한 이유

MediaPipe Tasks가 왜 판도를 바꿀 만한 것인지 이해하려면, 먼저 **유연성(flexibility)**과 속도(velocity) 사이의 긴장 관계를 이해해야 합니다.

초기에는 TensorFlow Lite (TFLite) 인터프리터에 직접 상호 작용하는 것이 완전한 제어권을 제공했지만, 그 대가는 막대했습니다. 이는 저수준 Camera2 API를 사용하는 것과 같았습니다. 모든 센서 매개변수를 조정할 수는 있었지만, 단일 프레임을 화면에 표시하기 위해 코드 작성에 시간의 80%를 소비해야 했습니다.

Google이 설계한 MediaPipe Tasks는 Camera2에서 CameraX로 전환하는 것과 동일한 철학을 따릅니다. CameraX가 파편화된 구현을

MediaPipe는 AI 모델을 단순한 블랙박스 함수(input -> output)로 취급하지 않습니다. 대신, 관리되는 3단계 파이프라인(three-phase pipeline)으로 취급합니다.

전처리 (Pre-processing): 원시 Android Bitmap 또는 ImageProxy 객체를 모델에 필요한 특정 텐서 형식(정규화 (normalization), 색 공간 변환 (color space conversion), 크기 조정 (resizing))으로 변환하는 고된 작업을 수행합니다.
추론 (Inference): 특화된 델리게이트 (delegates)를 통해 최적화된 하드웨어(NPU, GPU 또는 CPU)에서 모델을 실행합니다.
후처리 (Post-processing): 원시 텐서 출력(예: 1000개의 값으로 이루어진 float 배열)을 경계 상자 (bounding box)와 레이블 (label)을 포함하는 Detection 객체와 같이 개발자 친화적인 Kotlin 객체로 변환합니다.

내부 구조: "Calculator" 그래프 이론

추상화 계층을 들여다보면, MediaPipe는 그래프 기반 실행 모델 (Graph-based execution model) 위에서 작동합니다. 여기서 진정한 마법이 일어납니다. "그래프 (Graph)"는 **스트림 (Streams)**에 의해 연결된 **계산기 (Calculators)**들의 집합입니다.

계산기 (Calculators): 이는 처리의 원자적 단위 (atomic units)입니다. 하나의 계산기는 이미지 회전을 처리할 수 있고, 다른 계산기는 TFLite 추론을 처리하며, 세 번째 계산기는 중복된 경계 상자를 정리하기 위해 비최대 억제 (Non-Maximum Suppression, NMS)를 처리할 수 있습니다.
패킷 (Packets): 데이터는 이러한 계산기 사이를 "패킷 (Packets)" 형태로 이동합니다. 패킷은 페이로드 (payload, 이미지 또는 텐서)와 결정적으로 **타임스탬프 (timestamp)**를 포함합니다.

타임스탬프는 실시간 엣지 AI (Edge AI)의 이론적 중추입니다. Face Landmarker와 Gesture Recognizer를 동시에 실행하는 복잡한 앱에서는 동기화가 전부입니다. 타임스탬프가 찍힌 패킷이 없다면, 프레임 $N+1$의 얼굴 랜드마크를 사용하여 프레임 $N$의 제스처를 처리하게 될 수도 있으며, 이는 불안정하고 끊기는 사용자 경험으로 이어집니다. MediaPipe는 개별 계산기의 실행 시간이 얼마나 걸리든 관계없이 전체 파이프라인에 걸쳐 시간적 일관성 (temporal consistency)을 보장합니다.

시스템 수준의 AI: AICore와 Gemini Nano의 부상

오랫동안 Android AI의 표준은 "에셋(assets)에 모델을 포함시키는 것"이었습니다. 이 방식은 간단하지만, 거대 언어 모델 (LLMs) 시대에는 근본적으로 결함이 있습니다. 만약 다섯 개의 서로 다른 앱이 모두 유사한 모델의 2GB 버전을 포함하고 있다면, 사용자의 저장 공간은 황폐해질 것이며, 시스템은 해당 기기의 특정 신경망 처리 장치 (NPU)에 맞춰 모델을 최적화할 수 없습니다.

이로 인해 AICore와 시스템 AI 제공자 (System AI Provider) 아키텍처가 탄생하게 되었습니다.

"공유 라이브러리" 철학

AICore를 AI 분야의 Google Play Services라고 생각하십시오. 앱이 모델을 소유하는 대신, 시스템이 모델을 소유합니다. Google의 가장 효율적인 LLM인 Gemini Nano는 AICore 내에 호스팅됩니다. 앱이 Gemini Nano를 사용하고자 할 때, 자신의 에셋에서 거대한 파일을 로드하는 것이 아니라 시스템 AI 제공자에게 세션을 요청합니다.

이러한 아키텍처의 변화는 세 가지 거대한 문제를 해결합니다:

메모리 압박 (Memory Pressure): LLM은 RAM을 많이 소모합니다. 모델을 시스템 프로세스 (AICore)에서 호스팅함으로써, OS는 메모리 상주 (memory residency)를 더욱 공격적으로 관리할 수 있으며, AI 기능을 사용하는 앱이 포그라운드에 없을 때 모델을 스왑 아웃 (swapping out)할 수 있습니다.
하드웨어 특화 (Hardware Specialization): 서로 다른 NPU (Qualcomm Hexagon, Google TPU, Samsung NPU)는 서로 다른 양자화 (quantization) 형식을 요구합니다. AICore는 개발자가 10개의 서로 다른 모델 바이너리를 제공할 필요 없이, 사용자의 특정 SoC (System on Chip)에 맞춰 특별히 컴파일된 Gemini Nano 버전을 전달할 수 있습니다.
업데이트 가능성 (Updateability): Google은 시스템 업데이트를 통해 모델의 정확도를 개선하거나 편향을 줄일 수 있으며, 제공자를 사용하는 모든 앱은 앱 스토어 업데이트 없이 즉각적인 혜택을 누립니다.

"AI 제공자"는 추상화 계층 (abstraction layer) 역할을 합니다. 여러분의 코드는 추론이 로컬 TFLite 런타임, 특화된 NPU 드라이버, 또는 클라우드 폴백 (cloud-fallback) 메커니즘을 통해 발생하는지 여부에 관계없이 독립적으로 유지됩니다.

하드웨어 가속: CPU를 넘어서

진정한 고성능을 달성하려면 CPU에만 의존해서는 안 됩니다. 전문적인 AI 애플리케이션을 구축하려면 다음과 같은 컴퓨팅 계층 구조 (compute hierarchy)를 이해해야 합니다:

CPU (Central Processing Unit): 범용적입니다. 복잡한 로직에는 훌륭하지만, AI에 필요한 대규모 행렬 곱셈 (matrix multiplications)에는 매우 취약합니다.
GPU (Graphics Processing Unit): 고도의 병렬 처리가 가능합니다. 부동 소수점 연산 (floating-point math)에 탁월하며 이미지 전처리 (image pre-processing)에 이상적입니다.
DSP (Digital Signal Processor): 저전력, 고정 소수점 연산 (fixed-point math)에 특화되어 있습니다. "상시 대기 (always-on)" 기능에 완벽합니다.
NPU (Neural Processing Unit): 표준(gold standard)입니다. 텐서 연산 (tensor operations)을 위해 특별히 설계되었으며, 에너지 소비를 줄이고 속도를 극대화하기 위해 메모리와 ALU 사이의 데이터 이동을 최소화합니다.

핵심 비결: 양자화 (Quantization)

NPU의 효율성은 **양자화 (Quantization)**에 의해 구동됩니다. 대부분의 모델은 FP32 (32비트 부동 소수점)를 사용하여 학습되지만, 칩 전체에서 32비트 숫자를 이동시키는 것은 에너지 소모가 큽니다. 양자화는 이러한 값들을 더 작은 타입으로 매핑합니다:

FP16: 반정밀도 (Half-precision). 정확도 손실이 최소화되며 대부분의 GPU에서 지원됩니다.
INT8: 8비트 정수 (8-bit integers). 상당한 전력 절감이 가능하지만 "교정 (calibration)"이 필요합니다.
INT4: 4비트 정수 (4-bit integers). 거대한 모델을 모바일 RAM에 맞추기 위해 Gemini Nano에서 사용됩니다.

MediaPipe Tasks가 모델을 로드할 때, **델리게이트 (Delegate)**가 이러한 연산들을 어떻게 매핑할지 결정합니다. 만약 모델이 INT8로 양자화되어 있고 장치에 Hexagon NPU가 있다면, 델리게이트는 작업을 NPU로 라우팅합니다. 모델이 FP32이고 장치 성능이 제한적이라면, XNNPACK을 통해 CPU로 폴백 (fallback)합니다.

현대적인 Kotlin과 AI 파이프라인의 연결

AI 파이프라인은 본질적으로 비동기적이며 스트림 지향적입니다. 이를 초기 Java의 명령형 스타일 (imperative style)로 매핑하면 "콜백 지옥 (Callback Hell)"이 발생합니다. 프로덕션 수준의 앱을 구축하려면 Kotlin의 현대적인 동시성 기본 요소 (concurrency primitives)를 활용해야 합니다.

파이프라인 표현으로서의 Flow

Kotlin에서 MediaPipe 스트림을 표현하는 가장 자연스러운 방법은 Flow를 사용하는 것입니다. Flow는 값을 순차적으로 방출할 수 있는 콜드 스트림 (cold stream)이며, MediaPipe의 "패킷 (Packet)" 이론과 완벽하게 매핑됩니다.

하지만 한 가지 주의할 점이 있습니다. 바로 **배압 (Backpressure)**입니다. 실시간 시스템에서 카메라(생성자, producer)는 보통 NPU(소비자, consumer)가 처리할 수 있는 속도보다 더 빠르게 프레임을 생성합니다. 이를 관리하지 않으면 앱에 오래된 프레임들이 큐(queue)로 쌓이게 되어, AI 결과가 실제 상황보다 몇 초 뒤처지는 "지연 효과 (lag effect)"가 발생합니다.

해결책은 무엇일까요? 바로 .conflate() 연산자입니다. conflate()를 사용하면 Kotlin에 다음과 같이 명령하는 것과 같습니다: "만약 NPU가 바쁘다면, 중간 프레임들은 건너뛰고 항상 가장 최신 프레임을 나에게 전달해줘."

구현: 프로덕션 레벨의 파이프라인 (Production-Ready Pipeline)

Hilt, Coroutines, 그리고 MediaPipe를 사용하여 고성능 탐지 파이프라인을 구현하는 방법을 살펴보겠습니다.

1. 관리형 태스크 래퍼 (The Managed Task Wrapper)

먼저, MediaPipe의 ObjectDetector를 수명 주기(lifecycle)를 관리하는 클래스로 래핑합니다. SQLite에서 Cursor를 반드시 닫아야 하는 것처럼, 네이티브 NPU 핸들을 해제하기 위해서는 MediaPipe 태스크를 명시적으로 닫아주어야 합니다.

@Singleton
class VisionTaskProvider @Inject constructor(
    @ApplicationContext private val context: Context
...

2. 고성능 탐지 파이프라인 (The High-Performance Detection Pipeline)

여기에서는 이미지 스트림을 처리하기 위해 Flow를 사용하고, 지연 효과를 방지하기 위해 conflate()를 사용합니다.

class DetectionPipeline @Inject constructor(
    private val taskProvider: VisionTaskProvider
) {
...

3. ViewModel 오케스트레이터 (The ViewModel Orchestrator)

마지막으로, viewModelScope를 사용하여 이를 UI와 연결함으로써 AI 파이프라인이 화면의 수명 주기(lifecycle)에 종속되도록 보장합니다.

@HiltViewModel
class AIViewModel @Inject constructor(
    private val pipeline: DetectionPipeline
...

이론적 토대의 요약

가공되지 않은 TFLite에서 MediaPipe Tasks로의 전환은 모바일 인텔리전스에 접근하는 방식의 근본적인 변화를 의미합니다. 우리는 **명령형 텐서 조작 (imperative tensor manipulation)**에서 **선언적 파이프라인 오케스트레이션 (declarative pipeline orchestration)**으로 이동하고 있습니다.

AICore의 "이유(Why)": "모델 비대화 (Model Bloat)" 문제를 해결하고, 시스템 레벨의 프로바이더 (provider)를 통해 하드웨어 특화 최적화를 가능하게 하기 위함입니다.
성능의 "방법(How)": 양자화 (quantization, INT8/INT4)를 통해 NPU (Neural Processing Unit)를 활용하고, 비차단형 (non-blocking) Kotlin Flows를 사용하여 프로듀서-컨슈머 (producer-consumer) 간의 간극을 관리합니다.
MediaPipe의 "내부 구조(Under the Hood)": 여러 AI 태스크 전반에 걸쳐 시간적 일관성 (temporal consistency)을 보장하는 타임스탬프가 찍힌 패킷 (timestamped packets)의 그래프입니다.

현대적인 Android 개발자에게 핵심은 AI 모델을 단순한 함수가 아니라, **리소스 집약적인 스트림 프로세서 (resource-intensive stream processor)**로 취급하는 것입니다. 데이터 이동을 위한 Flow, 모델 호스팅을 위한 AICore, 그리고 적절한 생명주기 관리 (lifecycle management)를 결합함으로써, 전체 Android 생태계에서 유연하고 배터리 효율적이며 확장 가능한 AI 경험을 구축할 수 있습니다.

함께 논의해 봅시다

모델이 AICore를 통해 "앱에 포함된 형태"에서 "시스템에 의해 제공되는 형태"로 이동함에 따라, 개발 과정에서 AI 기반 기능을 테스트하고 검증하는 방식이 어떻게 변할 것이라고 생각하시나요?
지연 시간 (latency, conflate() 사용)과 정확도 (모든 프레임 처리) 사이의 트레이드오프 (trade-offs)를 고려할 때, 증강 현실 (Augmented Reality)과 같은 실시간 애플리케이션을 위한 귀하의 선호 전략은 무엇인가요?

여기서 시연된 개념과 코드는 전자책인 Edge AI Performance. Optimizing hardware acceleration via NPU (Neural Processing Unit), GPU, and DSP에 명시된 포괄적인 로드맵에서 직접 가져온 것입니다. 여기에서 확인하실 수 있습니다.

Python, TypeScript, C#, Swift, Kotlin을 활용한 다른 모든 프로그래밍 및 AI 전자책도 Leanpub.com에서 확인해 보세요.

Insights