zkML은 AI가 절실히 필요로 하는 프라이버시 해결책이지만, 거의 아무도 이를 이야기하지 않습니다

저는 6개월 동안 제 노트북에서 로컬 LLM (Large Language Model)을 실행했습니다. 기분은 좋았습니다. 데이터가 제 기기를 떠나지 않았으니까요. 그러다 모델의 출력이 실제로 정확한지 — 즉, 자신감 넘치는 문체로 꾸며진 환각 (hallucination) 덩어리가 아닌지 — 검증해야 할 필요가 생겼습니다. 바로 그 지점에서 문제가 발생했습니다.

AI를 프라이버시를 지키며 실행할 수는 있습니다. 또한 AI 출력을 검증할 수도 있습니다. 하지만 이 두 가지를 동시에 수행하는 것? 그것이 바로 영지식 머신러닝 (zkML, zero-knowledge machine learning)이 해결하려고 노력하는 문제입니다. 만약 당신이 AI 시대의 프라이버시에 관심이 있다면, 이는 파고들 가치가 있는 주제입니다.

zkML이 실제로 하는 일

영지식 증명 (Zero-knowledge proofs)은 기초 데이터를 공개하지 않고도 어떤 사실이 참임을 증명할 수 있게 해줍니다. Zcash는 이를 프라이빗 트랜잭션 (private transactions)에 사용합니다. Ethereum 롤업 (rollups)은 확장을 위해 이를 사용합니다. 이 개념은 1980년대부터 존재해 왔습니다.

zkML은 동일한 아이디어를 머신러닝 (machine learning)에 적용합니다. 데이터가 무엇인지 누구에게도 보여주지 않고도 모델이 데이터를 올바르게 처리했음을 증명할 수 있습니다. 또는 모델의 가중치 (weights)를 공개하지 않고도 모델의 출력이 특정 모델로부터 나왔음을 증명할 수 있습니다.

이것이 무엇을 의미하는지 생각해 보십시오. 의료 AI는 귀하의 의료 기록이 기기를 떠나지 않고도 귀하를 올바르게 진단했음을 증명할 수 있습니다. 채용 도구는 누구의 이력서도 노출하지 않고 후보자를 공정하게 평가했음을 증명할 수 있습니다. 금융 모델은 귀하의 거래 내역을 공개하지 않고도 사기 행위를 올바르게 식별했음을 증명할 수 있습니다.

이것은 이론적인 이야기가 아닙니다. 프로젝트들이 현재 코드를 출시하고 있습니다.

주목할 만한 프로젝트들

EZKL이 아마도 가장 앞서 나가고 있을 것입니다. 그들은 ML (machine learning) 모델을 영지식 회로 (zero-knowledge circuits)로 변환하는 툴체인 (toolchain)을 구축했습니다. 모델을 평소처럼 훈련시킨 다음, EZKL을 통해 실행하면 추론 (inference)이 올바르게 수행되었다는 증명을 얻을 수 있습니다. 그들은 장난감 예제가 아닌 신경망 (neural networks)을 통해 이를 입증했습니다. 증명 속도는 느립니다 — 밀리초 (milliseconds) 단위가 아니라 분 (minutes) 단위입니다 — 하지만 작동합니다.

Modulus Labs는 다른 접근 방식을 취하고 있습니다. 이들은 소위 "검증 가능한 AI (verifiable AI)" 레이어를 구축하고 있습니다. 개별 추론 (inference)을 증명하는 대신, 전체 AI 에이전트 (agent)가 자신의 규칙을 준수했음을 증명하는 작업을 하고 있습니다. 예를 들어, 자신의 전략에서 벗어나지 않았음을 증명하는 자율 거래 봇 (autonomous trading bot)을 생각해 보세요. 팀에는 전 Google Brain 및 Stanford 연구원들이 포함되어 있으며, 1,000만 달러 이상의 자금을 조달했습니다.

Giza는 특히 DeFi를 위한 zkML에 집중합니다. 이들은 온체인 (on-chain) 신용 점수 산정이나 리스크 평가에 사용되는 AI 모델이 실제로 주장한 대로 작동했음을 증명하고자 합니다. 블랙박스도 없고, "나만 믿어" 식의 검증 (auditing)도 없습니다.

Risc Zero와 Ingo는 기반 인프라를 구축하고 있습니다. 즉, 임의의 계산을 실행하고 증명을 생성할 수 있는 범용 zkVM (zkVMs)입니다. 이것들은 ML 전용은 아니지만, zkML에 필요한 배관 (plumbing) 역할을 합니다.

이것이 일반인들에게 중요한 이유

대부분의 사람들은 영지식 증명 (zero-knowledge proofs)에 관심이 없습니다. 당연합니다. 하지만 다음 사항들에는 관심이 있습니다:

의사가 틀릴 수도 있는 AI를 사용하는 것. zkML은 병원이 환자 데이터를 중앙 집중화하지 않고도 AI 진단을 검증할 수 있게 해줄 수 있습니다.
볼 수 없는 알고리즘에 의해 거절당하는 것. 검증 가능한 AI는 기업이 모델 자체를 노출하지 않고도 채용 또는 대출 모델이 차별적이지 않음을 증명할 수 있음을 의미합니다.
인터넷을 뒤덮는 AI 생성 콘텐츠. zkML은 콘텐츠가 무작위 텍스트 생성기가 아닌 특정 신뢰할 수 있는 AI로부터 나왔다는 암호학적 증거인 "모델 증명 (proof of model)"을 지원할 수 있습니다.

AI 프라이버시 도구 (AI privacy tools) 생태계는 빠르게 성장하고 있으며, zkML은 프라이빗 AI (private AI)를 실제로 신뢰할 수 있게 만드는 중추가 되고 있습니다.

아무도 말하고 싶어 하지 않는 어려운 문제들

증명 생성 (Proof generation)은 비용이 많이 듭니다. 휴대폰에서 실시간으로 zkML 증명을 생성할 수 있는 단계는 아닙니다. 현재의 구현 방식은 몇 분의 시간과 상당한 컴퓨팅 자원을 소모합니다. 의료, 법률, 금융과 같이 이해관계가 큰 애플리케이션에서는 이는 수용 가능한 수준입니다. 하지만 챗봇의 경우라면? 아직은 아닙.

모델 크기 문제도 있습니다. 70억 개의 파라미터(parameter)를 가진 모델이 올바르게 실행되었음을 증명하는 것은 단순한 분류기(classifier)가 실행되었음을 증명하는 것보다 수십 배 더 어렵습니다. 현재 대부분의 zkML 데모는 작은 모델을 사용합니다. 프런티어 LLM(frontier LLMs)으로 확장하는 것은 아직 해결되지 않은 연구 과제입니다.

그리고 신뢰 부트스트래핑(trust bootstrapping) 문제가 있습니다. 영지식 증명(zero-knowledge proof)은 계산이 올바르게 수행되었음을 증명하지만, 모델이 양질의 데이터로 학습되었음을 증명하지는 않습니다. 암호학적 승인 도장이 찍힌 '쓰레기가 들어가면 쓰레기가 나오는(Garbage in, garbage out)' 상황이 발생할 수 있습니다. 여전히 체인의 어딘가에는 인간의 감독이 필요합니다.

오늘날 이를 실제로 사용하는 방법

지금 바로 zkML을 실험해보고 싶다면 몇 가지 옵션이 있습니다:

**EZKL의 플레이그라운드(playground)**를 사용하면 모델을 업로드하고 브라우저에서 증명을 생성할 수 있습니다. 인프라를 구축하지 않고 개념을 이해하기에 좋습니다.

온체인(on-chain)에서 구축하고 있다면, Giza의 SDK를 통해 검증 가능한 추론(verifiable inference)을 스마트 컨트랙트에 통합할 수 있습니다. 문서가 거칠긴 하지만 기능적입니다.

일반적인 영지식 도구(zero-knowledge tooling)를 위해서라면, Risc Zero의 zkVM은 오픈 소스이며 문서화가 잘 되어 있습니다. 실행 증명을 생성하는 Rust 프로그램을 작성할 수 있습니다.

테스트하는 동안 체인 간 전환이 필요한가요? SimpleSwap은 소액의 경우 KYC 없이 크로스체인 스왑(cross-chain swaps)을 처리합니다. 여러 테스트넷에 배포할 때 유용합니다.

zkML 회로(circuits) 프로토타이핑을 위해 AI가 생성한 코드가 필요하다면, NanoGPT는 코드를 클라우드 API로 보낼 필요가 없는 가벼운 옵션입니다. 수학적 원리를 이해하는 것을 대체할 수는 없지만, 상용구(boilerplate) 작성을 빠르게 해줍니다.

다음에 올 것들

제가 주목하고 있는 세 가지입니다:

증명 생성을 위한 하드웨어 가속 (Hardware acceleration). 영지식 증명 (Zero-knowledge proofs)을 위한 FPGA 및 맞춤형 ASIC이 개발 중입니다. 이것들이 실현된다면, 증명 시간 (Proof times)을 10~100배까지 단축할 수 있습니다.
규제 압박 (Regulatory pressure). EU AI Act는 고위험 AI 시스템에 대해 "투명성 (Transparency)"을 요구합니다. zkML은 영업 비밀이나 사용자 프라이버시를 희생하지 않으면서 투명성을 제공할 수 있는 몇 안 되는 기술적 접근 방식 중 하나입니다. 향후 2~3년 내에 규제 프레임워크가 검증 가능한 계산 (Verifiable computation)을 참조하게 될 것으로 예상됩니다.
연합 학습 (Federated learning)과의 통합. 연합 학습은 이미 데이터를 분산된 상태로 유지합니다. 그 위에 zkML을 추가한다는 것은 각 참여자가 데이터를 직접 노출하지 않고도 올바르게 학습했음을 검증할 수 있음을 의미합니다. 이 결합은 프라이버시를 보존하는 AI (Privacy-preserving AI)를 대규모로 실용화할 수 있게 해줍니다.

FAQ

zkML은 동형 암호 (Homomorphic encryption)와 같나요?
아니요. 동형 암호는 암호화된 데이터 위에서 계산을 수행할 수 있게 해줍니다. zkML은 계산이 올바르게 수행되었음을 증명합니다. 이들은 서로 다른 문제를 해결하며, 실제로 결합될 수도 있습니다.

제 노트북에서 zkML 증명을 실행할 수 있나요?
소비자용 하드웨어에서 작은 모델에 대한 증명을 생성할 수 있습니다. 더 큰 모델은 클라우드 컴퓨팅이나 특수 하드웨어가 필요합니다. 증명 검증 (Verification of proofs)은 휴대폰에서도 항상 빠르게 이루어집니다.

zkML이 AI 추론 (Inference) 속도를 늦추나요?
증명 생성 과정에서 오버헤드 (Overhead)가 추가되지만, 원래의 추론은 정상 속도로 실행됩니다. 증명은 사후에 또는 병렬로 생성됩니다. 모델을 느리게 만드는 것이 아니라, 검증 단계를 추가하는 것입니다.

이것이 실제로 프로덕션(실제 서비스)에서 사용되고 있나요?
DeFi (검증 가능한 오라클, 감사 가능한 신용 점수 산정) 및 일부 의료 분야 파일럿 프로젝트에서 초기 프로덕션 사례가 존재합니다. 주류 채택은 아직 2~3년 정도 남았습니다.

단순히 모델을 오픈 소스로 공개하는 것과 무엇이 다른가요?
오픈 소스 공개는 코드가 어떻게 생겼는지를 알려줍니다. zkML은 실제로 무엇이 실행되었는지를 증명합니다. 기업은 모델을 오픈 소스로 공개하면서 실제 프로덕션에서는 다른 모델을 실행할 수도 있습니다. zkML은 그 간극을 메워줍니다.

이 기사는 Daily Content Poster 워크플로우의 일환으로 조사 및 작성되었습니다. 프라이버시 보존 AI (privacy-preserving AI) 도구에 대한 더 자세한 내용은 AI Privacy Tools를 방문하여 확인하세요.

Insights

zkML은 AI가 절실히 필요로 하는 프라이버시 해결책이지만, 거의 아무도 이를 이야기하지 않습니다

요약

핵심 포인트

zkML은 AI가 절실히 필요로 하는 프라이버시 해결책이지만, 거의 아무도 이를 이야기하지 않습니다

zkML이 실제로 하는 일

주목할 만한 프로젝트들

이것이 일반인들에게 중요한 이유

아무도 말하고 싶어 하지 않는 어려운 문제들

오늘날 이를 실제로 사용하는 방법

다음에 올 것들

FAQ

댓글

AI 코딩 에이전트 샌드박싱(Sandboxing): 경계는 하네스(Harness)가 제어한다

이제 내 AI 에이전트는 작업이 실제로 실행되었음을 증명하는 서명된 영수증을 전달합니다

Azure-Samples/contoso-chat

HR 이메일 에이전트로 신규 입사자 온보딩하기

이제 내 AI 에이전트는 작업이 실제로 실행되었음을 증명하는 서명된 영수증을 전달합니다

Azure-Samples/contoso-chat

HR 이메일 에이전트로 신규 입사자 온보딩하기