본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 15. 15:06

【개략적 정리】 Windows AI APIs의 개요를 정리해 보았습니다

요약

Windows 앱 개발자가 로컬 AI 기능을 활용할 수 있도록 돕는 Windows AI APIs의 개요를 정리합니다. NPU, GPU, CPU를 활용하여 Phi Silica와 같은 로컬 모델을 실행하는 방식과 하드웨어 추상화 개념을 다룹니다.

핵심 포인트

  • Windows AI APIs는 하드웨어 추상화된 로컬 AI API 군임
  • Copilot+ PC의 NPU를 중심으로 하되 GPU 및 CPU로 확장 가능
  • Phi Silica는 로컬 언어 모델로 특정 GPU 조건 하에 사용 가능
  • 구현 시 Windows App SDK 및 최신 드라이버 확인 필수

Windows 주변의 AI 기능을 쫓다 보면, Copilot, Copilot+ PC, NPU, Windows ML, Foundry Local, Windows AI APIs 등 가까운 곳에 있는 용어들이 한꺼번에 등장합니다.

이 기사에서는 그중에서도 Windows 앱 개발자가 사용하는 API라는 관점에서, Windows AI APIs를 개략적으로 정리해 보겠습니다.

※ 본 기사는 2026년 6월 12일 시점에서 확인한 Microsoft 공식 문서를 바탕으로 작성한 개인 메모입니다. Windows AI APIs는 대응 버전이나 이용 조건이 바뀌기 쉬운 영역이므로, 구현 시에는 반드시 공식 문서를 확인해 주세요.

Windows AI APIs는 Windows 앱에서 로컬 AI 기능을 이용하기 위한 API 군입니다.

Microsoft Learn에서는 Windows AI APIs를 Windows Machine Learning을 기반으로 한 「하드웨어 추상화된 AI API 군」이라고 설명하고 있습니다. 앱 측에서 자체적인 머신러닝 (Machine Learning) 모델을 찾거나 실행 방법을 조정하지 않아도, Windows 측에서 제공되는 AI 기능을 호출할 수 있다는 위치 설정입니다.

포인트는 클라우드 API를 호출하기 위한 메커니즘이 아니라, 주로 대응하는 Windows 11 디바이스 상에서 로컬로 동작하는 모델이나 AI 기능을 Windows App SDK를 경유하여 사용하는 방향의 API라는 점입니다.

또한, Windows AI APIs 전체로는 Copilot+ PC / NPU를 중심으로 하면서도, 기능에 따라서는 대응 GPU나 권장 CPU 사양의 디바이스로도 대상이 확장되어 있습니다. 예를 들어 Phi Silica는 일부 GPU에도 대응하며, Speech Recognition이나 Video Super Resolution은 CPU로 동작하는 경로도 있습니다. 반면, Text Recognition이나 많은 Imaging 계열 API는 NPU를 전제로 합니다.

덧붙여 공식 문서에서는 Copilot+ PC 상에서 대응 API는 기본적으로 NPU 상에서 동작하며, GPU나 CPU란은 주로 비(非) Copilot+ PC를 향한 대응 확대를 나타내는 것으로 설명되어 있습니다. 즉, 「Copilot+ PC라면 NPU, 비(非) Copilot+ PC에서는 일부 API가 GPU/CPU로도 확장되고 있다」고 보면 정리가 쉬울 것 같습니다.

공식 문서에서 소개되고 있는 주요 영역을 상당히 개략적으로 나누면 다음과 같습니다.

영역대표적인 기능개략적인 용도
언어Phi Silica, 요약, 다시 쓰기로컬에서의 텍스트 생성 및 대화형 응답
...

Phi Silica는 Copilot+ PC에서는 NPU 상에서 동작하도록 최적화되어 있으면서, 대응 GPU를 가진 비(非) Copilot+ Windows 11 디바이스에서도 이용할 수 있는 로컬 언어 모델입니다.

공식 문서에서는 Phi Silica API를 Limited Access Feature라고 설명하고 있습니다. 또한 중국에서는 이용할 수 없다는 점도 기재되어 있습니다. 즉, 이름을 발견하면 즉시 누구나 모든 환경에서 사용할 수 있다기보다는, 대응 조건을 확인하면서 사용하는 기능으로 보고 있는 것이 좋을 것 같습니다.

특히 GPU 대응에 대해서는 조건부입니다. 공식 문서에서는 현시점의 GPU 대응은 NVIDIA GeForce RTX 30 시리즈 이후, 그리고 6GB 이상의 VRAM을 가진 GPU가 대상이라고 되어 있습니다. AMD GPU 대응은 향후 예정되어 있다고 합니다. 또한 GPU로 이용할 경우에는 Developer Mode 활성화, Windows Insider Program Experimental Channel 대상 빌드, Windows App SDK 2.2.2-experimental9 이후, GPU 제조사 제공 최신 드라이버 등의 조건이 있습니다.

따라서 「대응 GPU가 있다면 일반적인 Windows 11 환경에서 바로 사용할 수 있다」기보다는, 현시점에서는 실험적·조건부의 GPU 대응으로 보고 있는 것이 안전합니다.

용도로는 프롬프트에 대한 텍스트 응답, Q&A, 요약, 대화적인 처리 등을 상상하기 쉽습니다.

Text Recognition은 이미지 내의 문자를 검출·추출하기 위한 API입니다.

공식 문서에서는 문자, 단어, 행, 다각형 형태의 텍스트 경계, 신뢰도 등을 다룰 수 있다고 설명되어 있습니다. 또한 NPU를 가진 디바이스에서의 하드웨어 가속 (Hardware Acceleration)이 전제로 설명되어 있습니다.

Windows에는 오래전부터 OCR 계열의 API가 있었지만, Windows AI APIs 측의 Text Recognition은 NPU를 통한 하드웨어 가속 (Hardware Acceleration)을 전제로, 레거시 (legacy)인 Windows.Media.Ocr.OcrEngine API보다 빠르고 정밀한 OCR 기능으로 설명되어 있습니다. 현재의 AI PC/NPU 문맥에 맞춘 OCR로 이해하면 쉽습니다.

Imaging 계열의 API를 통해서는 이미지에 대해 몇 가지 AI 처리를 수행할 수 있습니다.

공식 문서에서 언급된 기능에는 다음과 같은 것들이 있습니다.

  • Image Super Resolution: 이미지를 최대 8배까지 확대 및 선명화
  • Image Description: 이미지 설명문 생성
  • Image Object Extractor: 점(point)이나 사각형(rectangle) 힌트를 사용한 객체 추출
  • Image Foreground Extractor: 전경 추출
  • Image Object Erase: 객체 삭제

또한, Image Description은 중국에서는 사용할 수 없다고 명시되어 있습니다. 지역적 제약은 Phi Silica뿐만이 아니라는 점도 구현 전에 확인해 두어야 할 부분입니다.

사진 편집 앱, 접근성 지원, 자료 작성 지원, 이미지 관리 도구 등에서는 상당히 구체적인 활용 방안을 상상하기 쉬운 영역입니다.

Windows AI APIs를 사용할 때 중요한 것은, 갑자기 API를 호출하는 것이 아니라 먼저 해당 AI 기능을 해당 PC에서 사용할 수 있는 상태인지 확인하는 것입니다.

공식 Get Started에서도 AI 기능을 구현할 때는 대상 기능을 지원하는 AI 모델의 가용성 (availability)을 먼저 체크하는 흐름을 제시하고 있습니다.

대략적으로 작성하면 다음과 같은 흐름이 됩니다.

  • Copilot+ PC나 OS 버전 등 전제 조건을 확인한다
  • 앱의 manifest에 systemAIModels capability와 systemai 네임스페이스 (namespace)를 추가한다
  • GetReadyState()로 모델이나 기능의 준비 상태를 확인한다
  • 필요에 따라 EnsureReadyAsync()로 준비한다
  • LanguageModel, TextRecognizer, Imaging 계열 API 등을 호출한다
  • 실패 시의 안내나 대체 동선을 포함하여 UX로 복귀한다

manifest 측에서는 예를 들어 다음과 같은 capability 지정이 필요합니다.

<Capabilities>
<systemai:Capability Name="systemAIModels"/>
</Capabilities>

로컬 AI 기능이므로 사용자의 PC 환경에 의존합니다. 개발자로서는 "사용할 수 있으면 편리하다"뿐만 아니라, "사용할 수 없을 때 어떻게 보여줄 것인가"도 처음부터 설계에 넣어두는 것이 좋아 보입니다.

Windows AI APIs는 기능에 따라 대응하는 Windows App SDK 버전이나 제공 상태가 다릅니다.

공식 개요 페이지에서는 예를 들어 다음과 같은 대응 상황이 제시되어 있습니다.

  • Windows App SDK 1.7.1: 많은 기존 API
  • Windows App SDK 1.8.0: Phi Silica, Conversation Summarization, Image Object Erase 등
  • Windows App SDK 1.8 Preview: LoRA fine-tuning for Phi Silica, Text Rewriter Tone 등
  • Private preview: Semantic Search

이 부분은 특히 변하기 쉬운 곳입니다. 기사나 샘플 코드를 발견하더라도 대상 Windows App SDK 버전, OS 빌드, 대응 디바이스를 세트로 확인하는 것이 안전합니다.

하드웨어 대응도 마찬가지로, "Windows AI APIs = 모두 NPU 전용"이라고 보지 않는 것이 좋습니다. Copilot+ PC에서는 대응 API가 NPU 상에서 동작하는 반면, 비(非) Copilot+ PC를 대상으로는 GPU나 CPU로의 대응 확대도 진행되고 있습니다.

예를 들어 GPU 대응이나 Semantic Search와 같은 preview/private preview 계열의 이야기는 업데이트가 잦으므로, 나중에 다시 읽을 때는 본 기사의 확인 날짜와 공식 페이지의 최신 상태를 함께 확인하는 것이 좋습니다.

생성형 AI 계열의 API에서는 Content moderation (콘텐츠 검열/조정)도 함께 살펴볼 필요가 있습니다.

공식 문서에서는 Phi Silica나 Imaging 등의 Windows AI APIs가 사용자 프롬프트(User prompt)나 생성 모델의 응답에 대해 잠재적으로 유해한 콘텐츠를 분류 및 필터링하는 메커니즘을 사용한다고 설명하고 있습니다. 기본적으로 필터가 활성화되어 있으며, 민감도 수준을 조정할 수 있습니다.

개인적으로는 Windows AI APIs를 '로컬에서 동작하므로 자유롭게 무엇이든 할 수 있는 API'로 보기보다는, 로컬 실행, 이용 조건, 콘텐츠 안전성, 사용자 투명성을 포함하여 설계된 API로 보는 것이 구현 시 혼란을 줄이는 길이라고 생각했습니다.

대략적으로 다음과 같은 앱에서 궁합이 좋을 것 같습니다.

  • 이미지 뷰어나 사진 관리 앱에서 이미지 설명이나 객체 추출(Object extraction)을 사용
  • 스캐너 앱이나 문서 관리 앱에서 OCR을 로컬에서 실행
  • 노트 앱에서 짧은 요약이나 문장 재작성을 보조
  • 업무용 앱에서 클라우드로 보내고 싶지 않은 경량 AI 처리를 PC 내에서 완결
  • 접근성(Accessibility) 지원으로서 이미지 설명이나 텍스트 추출을 통합

반면, 모든 Windows PC에서 동일하게 동작한다는 전제로 삼지 않는 것이 좋습니다. NPU, OS, 모델의 유무, 지역적 제약, Limited Access Feature 등을 확인하면서 기능의 차등 제공을 고려해야 합니다.

Windows AI APIs를 대략적으로 정리하면 다음과 같이 이해했습니다.

  • Windows 앱에서 로컬 AI 기능을 호출하기 위한 API 군
  • Windows App SDK를 통해 언어, OCR, 이미지 처리 등의 기능을 사용 가능
  • Copilot+ PC / NPU를 중심으로 하되, 기능에 따라 GPU·CPU 대응도 있으며 하드웨어 및 OS 조건에 대한 의존도가 높음
  • 사용 전 GetReadyState() 등으로 준비 상태를 확인해야 함
  • Content moderation(콘텐츠 검열/조정) 및 책임 있는 AI(Responsible AI) 관점도 함께 살펴볼 필요가 있음

아직 제공 상태가 유동적인 기능들도 있지만, Windows 앱에 'PC 내에서 동작하는 AI 보조' 기능을 추가하기 위한 입구로서 향후 상당히 중요해질 영역이라고 느꼈습니다.

  • What are Windows AI APIs? | Microsoft Learn
  • Get started building an app with Windows AI APIs | Microsoft Learn
  • Get started with Phi Silica | Microsoft Learn
  • Get Started with AI Text Recognition (OCR) | Microsoft Learn
  • AI Imaging overview | Microsoft Learn
  • Content safety moderation with the Windows AI APIs | Microsoft Learn
  • Windows App SDK release channels | Microsoft Learn

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0