본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 05. 18:31

AI 벤더가 당신의 데이터에 대해 '우리를 믿으라'고 말할 때, 더 나은 대안이 있습니다.

요약

클라우드 AI 서비스의 데이터 보안 모델인 '신뢰 기반(Trust Me)' 방식의 한계를 지적하며, NVIDIA의 기밀 컴퓨팅 기술과 온디바이스 AI를 통한 '직접 검증(Verify Yourself)' 패러다임으로의 전환을 설명합니다.

핵심 포인트

  • 클라우드 AI 데이터 흐름은 추론 과정 중 평문 노출 위험이 존재함
  • 기존 모델은 제공업체의 계약과 보안 감사에 의존하는 '신뢰' 기반임
  • NVIDIA Vera Rubin은 하드웨어 수준의 기밀 컴퓨팅으로 보안을 강화함
  • 데이터를 기기에 머물게 하는 온디바이스 AI가 강력한 대안으로 부상함

당신의 AI 벤더는 데이터에 대해 "우리를 믿으라"고 말합니다. 6월 말, ByteDance의 Doubao(豆包)는 공식적으로 무료 티어(free tier)를 종료하고 API 호출에 대해 과금을 시작했습니다. 개발자 커뮤니티의 논의는 가격에서 다른 질문으로 빠르게 전환되었습니다. 매일 클라우드 AI 서비스로 흐르는 이 모든 데이터는 정확히 어디로 가는 것일까요?

비슷한 시기에 NVIDIA는 GTC 2026에서 Vera Rubin 아키텍처의 풀스택 기밀 컴퓨팅 (confidential computing) 기능을 선보이며 상당한 무대 시간을 할애했습니다. Jensen Huang의 메시지는 명확했습니다. 미래의 AI 칩은 계산 과정 내내 데이터를 암호화된 상태로 유지하여, 클라우드 서비스 제공업체를 포함한 그 누구도 평문 (plaintext)으로 접근할 수 없게 만들어야 한다는 것입니다.

동일한 트렌드를 가리키는 두 가지 신호: AI 서비스에서의 데이터 보안은 "누군가 한 번 언급했던 것"에서 "당신이 직접 답해야 하는 것"으로 이동했습니다.

클라우드 AI를 통한 데이터 경로는 생각보다 더 복잡합니다

대부분의 개발자는 클라우드 AI에 대해 단순한 멘탈 모델 (mental model)을 가지고 있습니다: 내가 요청을 보내면, 모델이 결과를 반환하고, 내 데이터는 사라진다.

실제 데이터 흐름은 더 복잡합니다. 전형적인 클라우드 AI 호출은 다음과 같은 단계들을 거칩니다:

  • 요청 데이터가 HTTPS를 통해 서비스 엔드포인트 (endpoint)로 이동합니다.
  • 서비스는 GPU 할당을 기다리는 동안 요청을 큐 (queue)에 쌓을 수 있습니다.
  • 추론 (inference) 과정 동안, 입력 데이터는 서버 메모리에 평문 (plaintext) 상태로 존재합니다.
  • 추론 후, 입력/출력이 캐시 (cached)되는지 또는 후속 학습 (training)에 사용되는지는 제공업체의 개인정보 보호 정책에 따라 다릅니다.
  • 로깅 (logging) 시스템이 요청 메타데이터 또는 부분적인 콘텐츠를 기록할 수 있습니다.

각 단계에서 데이터는 잠재적으로 접근 가능한 상태가 됩니다. 제공업체들은 일반적으로 개인정보 보호 계약에서 "우리는 귀하의 데이터를 보지 않습니다" 및 "귀하의 데이터는 학습에 사용되지 않습니다"라고 말합니다. 이것들은 계약상의 약속입니다. 당신은 그들이 이를 준수할 것이라고 믿어야 합니다.

이것이 바로 "나를 믿으라 (Trust Me)" 모델입니다.

나를 믿으라 (Trust Me) vs 직접 검증하라 (Verify Yourself)

AI 서비스의 데이터 보호 접근 방식을 대략적으로 분류하면 두 가지 패러다임이 나타납니다:

나를 믿으라 (Trust Me)

데이터가 사용자의 기기를 떠나 제3자에 의해 처리됩니다. 제공업체는 계약, 보안 감사 및 컴플라이언스 (Compliance) 인증을 통해 보안을 보장합니다. 귀하의 데이터에 접근하지 않았음을 독립적으로 검증할 수 없으며, 그들의 말을 믿어야 합니다.

대부분의 클라우드 AI 서비스가 이 방식으로 작동합니다. OpenAI, Anthropic, Doubao 등이 이에 해당합니다. NVIDIA의 Vera Rubin 기밀 컴퓨팅 (Confidential Computing)은 하드웨어 수준의 보호 계층인 TEE (Trusted Execution Environment, 신뢰 실행 환경)를 추가하여, 연산 중에 데이터를 암호화함으로써 서비스 제공업체조차 평문 (Plaintext)을 볼 수 없게 합니다. 이는 '나를 믿으라 (Trust Me)' 모델의 중대한 업그레이드이지만, 근본적으로 귀하의 데이터는 여전히 기기를 떠났습니다.

직접 검증하라 (Verify Yourself)

데이터가 기기를 절대 떠나지 않습니다. 추론 (Inference)이 로컬에서 실행됩니다. 스크린샷과 작업 설명이 외부 서버로 업로드되지 않습니다. 데이터가 물리적으로 제자리에 머물러 있기 때문에 제3자를 신뢰할 필요가 없습니다.

이것이 온디바이스 AI (On-device AI)의 핵심 장점입니다. 검토해야 할 복잡한 개인정보 보호정책 문구가 없습니다. 평가해야 할 제공업체의 보안 컴플라이언스도 없습니다. 걱정해야 할 국가 간 데이터 전송 규제도 없습니다. 데이터가 기기를 떠나지 않는 것 — 이것이 가장 단순하고 철저한 보호 방법입니다.

오픈 소스 커뮤니티는 이미 이 모델을 출시하고 있습니다. Mano-P는 엣지 디바이스 (Edge device)를 위해 구축된 Apache 2.0 라이선스의 GUI 에이전트 프로젝트입니다. 이 프로젝트는 Apple M4 칩과 32GB RAM을 탑재한 Mac에서 완전히 온디바이스로 추론을 실행합니다. 로컬 모드에서는 모든 스크린샷과 작업 설명이 네트워크 전송 없이 온디바이스에서 처리됩니다. 전체 소스 코드는 공개되어 있으며 데이터 흐름 경로는 감사 (Auditable) 가능합니다.

모든 데이터에 동일한 수준의 보호가 필요한 것은 아닙니다

반대편의 극단으로 치우치는 것을 피하려면, 모든 시나리오에 온디바이스 솔루션이 필요한 것은 아니라는 점을 알아야 합니다.

더 실용적인 접근 방식은 데이터를 계층별로 분류하고 각 계층에 적합한 처리 방법을 선택하는 것입니다:

공공 데이터 (D₁)

공공 정보 검색, 일반적인 카피 생성, 공공 문서 번역. 데이터 자체에 민감성이 없습니다. 클라우드 서비스(Cloud services)를 사용해도 무방하며, 가장 성능이 강력한 모델을 선택하면 됩니다.

기업 데이터 (D₂)

내부 문서 처리, 비즈니스 데이터 분석, 내부 시스템 운영. 여기에는 영업 비밀과 독점 정보가 포함됩니다. 프라이빗 클라우드 (Private cloud), 에지 서버 (Edge servers), 또는 보안 인증을 받은 제3자 서비스와 같이 통제된 환경에서 처리하는 것이 가장 좋습니다.

개인 데이터 (D₃)

채팅 기록, 개인 사진, 개인 금융 데이터, 의료 기록. 이는 가장 민감한 계층이며, 온디바이스 AI (On-device AI)가 가장 큰 가치를 제공하는 영역입니다. 데이터는 사용자의 하드웨어에 머물며, 결코 제3자를 거치지 않습니다.

많은 AI 사용자들이 깨닫지 못하는 사실은, 일상적으로 보이는 작업조차 D₃ 수준의 데이터를 포함할 수 있다는 점입니다. AI가 채팅 메시지를 정리하게 한다는 것은 당신의 사회적 관계와 대화 내용이 클라우드로 넘어간다는 것을 의미합니다. AI가 예산 관리를 한다는 것은 당신의 수입과 지출이 타인의 서버에 있다는 것을 의미합니다. GUI 에이전트 (GUI agent)가 데스크톱을 조작하게 한다는 것은 스크린샷이 현재 화면에 표시된 무엇이든 캡처할 수 있음을 의미합니다.

Mano-P Architecture

GUI 에이전트는 프라이버시 문제를 더욱 악화시킵니다

GUI 에이전트는 가장 프라이버시에 민감한 AI 애플리케이션 카테고리 중 하나입니다.

전통적인 LLM (Large Language Model) 호출 방식에서는 무엇을 보내는지 알 수 있습니다. 바로 텍스트 프롬프트나 질문입니다. 하지만 GUI 에이전트는 현재 상태를 이해하기 위해 화면 콘텐츠를 지속적으로 캡처합니다. 화면에 있는 모든 것이 모델로 들어갑니다.

은행 웹사이트에 접속해 있을 때 표시되는 은행 잔고, 편집 중인 계약서의 상업적 조건, 답장을 작성하는 동안 보이는 다른 이메일의 제목까지. GUI 에이전트가 작동하려면 이 모든 것을 "봐야" 합니다. 만약 추론 (Inference)이 클라우드에서 실행된다면, 모든 스크린샷이 업로드됩니다.

이것이 바로 GUI 에이전트 시나리오에서 온디바이스 추론 (On-device inference)이 단순히 "더 나은 선택지"가 아니라, 많은 경우 필수 사항인 이유입니다.

Mano-P의 4B 온디바이스 모델은 Apple M5 Pro에서 약 80 tokens/s의 디코딩 속도를 달성하며, 이는 매끄러운 GUI 자동화를 구현하기에 충분할 만큼 반응성이 좋습니다. Cider 추론 가속 SDK를 사용하면, W8A8 활성화 양자화 (Activation quantization)를 통해 W8A16 베이스라인 대비 약 12.7%의 프리필 (Prefill) 속도 향상을 제공합니다. 전체 추론 파이프라인은 네트워크 의존성 없이 로컬에서 실행됩니다.

오픈 소스와 감사 가능성은 근간입니다

온디바이스 AI의 데이터 프라이버시 약속은 신뢰의 토대로서 오픈 소스를 필요로 합니다.

만약 어떤 온디바이스 AI 애플리케이션이 "데이터가 절대 기기를 떠나지 않는다"라고 주장하면서 소스 코드가 폐쇄적이라면, 백그라운드에서 무언가를 조용히 업로드하고 있는지 여전히 확인할 수 없습니다. 폐쇄형 소스 온디바이스 앱과 클라우드 서비스는 근본적으로 동일한 신뢰 모델, 즉 둘 다 "나를 믿으라(Trust Me)"는 방식입니다.

진정한 "직접 검증하라(Verify Yourself)"를 위해서는 두 가지 조건이 필요합니다: 데이터가 온디바이스에 머물러야 하며, 동시에 소스 코드가 감사 가능 (Auditable)해야 합니다.

Mano-P는 이 두 가지 측면 모두에서 투명합니다. Apache 2.0 라이선스 하에 완전히 오픈 소스로 공개되어 있으며, 클라이언트 소스 코드는 공개적으로 검토 가능하고, 로컬 모드에서는 외부 네트워크 호출이 전혀 없습니다.

벤치마크 결과도 주목할 만합니다. 이 프로젝트의 72B 평가 모델은 OSWorld에서 58.2%의 정확도를 달성하며 특화 모델 중 1위를 기록했습니다. WebRetriever Protocol I에서는 41.7 NavEval을 기록하여, Gemini 2.5 Pro(40.9)와 Claude 4.5(31.3)를 앞질렀습니다. 참고: 평가는 72B 모델을 사용하며, 실제 온디바이스 배포에는 4B 버전을 사용합니다.

OSWorld Benchmark

AI에 비용을 청구하는 것이 문제가 아니라, 데이터 흐름이 문제입니다

Doubao의 가격 책정 소식으로 돌아가 보겠습니다. AI 서비스에 비용을 청구하는 것은 합리적인 비즈니스 모델입니다. 훌륭한 모델은 그에 상응하는 대가를 받을 가치가 있습니다. 진짜 문제는 "비용을 지불해야 하는가"가 아니라, "비용을 지불하는 동안 내 데이터에 어떤 일이 일어나고 있는가"입니다.

공공 정보 검색 및 생성(Information Retrieval and Generation)의 경우, 클라우드 서비스가 여전히 가장 효율적인 옵션입니다. 하지만 개인의 프라이버시나 기업의 기밀(Confidentiality)이 포함된 시나리오의 경우, Mac mini 한 대 값의 비용을 들여서라도 추론(Inference)을 온디바이스(On-device)로 옮기는 것이 더 신중한 접근 방식일 수 있습니다.

도구는 바꿀 수 있습니다. 하지만 데이터 유출은 되돌릴 수 없습니다.

완전히 온디바이스에서 실행되는 GUI 에이전트 솔루션을 찾고 있다면, GitHub에서 Mano-P를 확인해 보세요. Apache 2.0 오픈 소스이며, 32GB RAM을 갖춘 M4+ 기기를 지원합니다. brew tap Mininglamp-AI/tap && brew install mano-cua를 통해 설치할 수 있습니다. 이 프로젝트가 유용하다고 생각하신다면, GitHub Star를 눌러주시면 감사하겠습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0