친구 여러분,

미국의 정책들이 동맹국들이 미국의 AI 기술을 사용하는 것으로부터 멀어지게 만들고 있습니다. 이는 주권 AI (Sovereign AI) — 즉, 외국 세력에 의존하지 않고 AI 기술에 접근할 수 있는 국가의 능력 — 에 대한 관심으로 이어지고 있습니다. 이는 미국의 영향력을 약화시키지만, 경쟁을 심화시키고 오픈 소스 (Open Source)에 대한 지원을 늘리는 결과로 이어질 수 있습니다.

미국은 트랜지스터 (Transistor), 인터넷 (Internet), 그리고 현대 AI를 구동하는 트랜스포머 아키텍처 (Transformer Architecture)를 발명했습니다. 미국은 오랫동안 기술 강국이었습니다. 저는 미국을 사랑하며, 미국의 성공을 위해 열심히 노력하고 있습니다. 하지만 여러 행정부에 걸쳐 수년간 취해진 미국의 행동들은 다른 국가들이 미국에 대한 과도한 의존을 걱정하게 만들었습니다.

2022년, 러시아의 우크라이나 침공 이후 러시아 올리가르히 (Oligarchs)와 연결된 은행들에 대한 미국의 제재는 일반 소비자들의 신용카드가 정지되는 결과를 초래했습니다. 바이든 (Biden) 행정부는 퇴임 직전, 미국의 동맹국을 포함한 많은 국가들이 AI 칩을 구매하는 능력을 제한하는 "AI 확산 (AI diffusion)" 수출 통제를 시행했습니다.

트럼프 (Trump) 체제 하에서 "미국 우선주의 (America first)" 접근 방식은 다른 국가들을 밀어내는 과정을 크게 가속화했습니다. 동맹국과 적대국 모두에게 광범위하고 혼란스러운 관세가 부과되었습니다. 그린란드 (Greenland)를 인수하겠다는 위협도 있었습니다. 이민에 대한 비우호적인 태도 — 바이든 행정부 시절 남부 국경의 혼란에 대한 과잉 대응 — 도 포함되었습니다. 여기에는 ICE (Immigration and Customs Enforcement, 이민세관집행국)의 끔찍한 전술이 포함되었으며, 이로 인해 요원들이 Renée Good, Alex Pretti 등을 총격 살해하는 결과가 발생했습니다. 글로벌 미디어는 ICE가 미국 도시들을 공포에 떨게 하는 영상들을 널리 퍼뜨렸으며, 저에게는 해외에 거주하는 매우 숙련되고 법을 준수하는 친구들이 있지만, 그들은 이제 자의적인 구금을 두려워하며 미국 여행을 망설이고 있습니다.

AI의 전략적 중요성을 고려할 때, 국가들은 어떤 외국 세력도 자신들의 접근을 차단할 수 없도록 보장하기를 원합니다. 따라서 주권 AI (Sovereign AI)가 등장하고 있습니다.

주권 AI (Sovereign AI)는 아직 정밀하게 정의된 개념이라기보다는 모호한 개념에 가깝습니다. 완전한 독립은 비현실적입니다. 미국에서 설계하고 대만에서 제조되는 AI 칩을 대체할 만한 좋은 대안이 없으며, 많은 에너지 장비와 컴퓨터 하드웨어는 중국에서 제조됩니다. 하지만 OpenAI, Google, Anthropic과 같은 미국의 선도적인 기업들이 만든 프런티어 모델 (Frontier models)에 대한 대안을 갖고자 하는 욕구는 분명합니다. 부분적으로 이러한 이유 때문에 DeepSeek, Qwen, Kimi, GLM과 같은 중국의 오픈 웨이트 (Open-weight) 모델들이 특히 미국 이외의 지역에서 빠르게 채택되고 있습니다.

World map with labeled AI centers globally highlighting increasing sovereign AI development.

주권 AI에 있어서 다행스럽게도 모든 것을 직접 구축할 필요는 없습니다. 글로벌 오픈 소스 (Open-source) 커뮤니티에 참여함으로써, 한 국가는 AI에 대한 자체적인 접근 권한을 확보할 수 있습니다. 목표는 모든 것을 통제하는 것이 아니라, 당신이 AI를 어떻게 사용하는지에 대해 그 누구도 통제할 수 없도록 보장하는 것입니다. 실제로 국가들은 Linux, Python, PyTorch와 같은 오픈 소스 소프트웨어를 사용합니다. 어떤 국가도 이 소프트웨어들을 통제할 수는 없지만, 그 누구도 다른 이들이 자신에게 적합한 방식으로 이를 사용하는 것을 막을 수 없습니다.

이는 국가들이 오픈 소스 및 오픈 웨이트 모델에 더 많이 투자하도록 자극하고 있습니다. UAE(저의 전 대학원 동기였던 Eric Xing의 리더십 하에!)는 최근 오픈 소스 추론 모델인 K2 Think를 출시했습니다. 인도, 프랑스, 대한민국, 스위스, 사우디아라비아 등도 자체적인 파운데이션 모델 (Foundation models)을 개발하고 있으며, 더 많은 국가가 자신들의 통제 하에 있거나 혹은 신뢰할 수 있는 동맹국의 통제 하에 있는 컴퓨팅 인프라 (Compute infrastructure)에 대한 접근을 보장하기 위해 노력하고 있습니다.

민주주의 국가들 사이의 글로벌 파편화(Global fragmentation)와 신뢰의 침식은 부정적인 현상입니다. 그럼에도 불구하고, 이것이 더 많은 경쟁으로 이어진다면 한 줄기 빛이 될 수 있습니다. 미국의 검색 엔진인 Google과 Bing이 전 세계 웹 검색을 지배하게 되었지만, Baidu(중국)와 Yandex(러시아)는 현지에서 선전했습니다. 만약 국가들이 자국의 챔피언 기업들을 지원한다면 — 거대 기업들의 우위를 고려할 때 매우 어려운 과제이긴 하지만 — 어쩌면 우리는 더 많은 번창하는 기업들을 갖게 될 것이며, 이는 시장의 통합을 늦추고 경쟁을 촉진할 것입니다. 나아가, 오픈 소스(Open source)에 참여하는 것은 국가들이 최첨단 기술을 유지할 수 있는 가장 저렴한 방법입니다.

지난주 다보스(Davos)에서 열린 세계경제포럼(World Economic Forum)에서 많은 기업 및 정부 지도자들은 미국 기술 제공업체에 의존하는 것에 대해 점점 더 꺼려지는 마음과 대안에 대한 열망에 대해 이야기했습니다. 아이러니하게도, "미국 우선주의(America first)" 정책은 결과적으로 전 세계의 AI 접근성을 강화하게 될지도 모릅니다.

계속해서 구축해 나가세요!

Andrew

DEEPLEARNING.AI의 메시지

Promo banner for: "Agent Skills with Anthropic"

"Anthropic과 함께하는 에이전트 기술(Agent Skills with Anthropic)"은 워크플로 로직(Workflow logic)을 프롬프트(Prompts)에서 분리하여 재사용 가능한 기술(Skills)로 옮김으로써 에이전트를 더 신뢰할 수 있게 만드는 방법을 보여줍니다. 코딩, 데이터 분석, 연구 및 기타 워크플로 전반에 걸쳐 기술을 설계하고 적용하는 방법을 배워보세요. 지금 등록하세요.

뉴스

UCP diagram outlines processes, from product discovery to identity linking and order management.

AI 에이전트를 위한 쇼핑 프로토콜

Google은 AI 에이전트가 아이템 찾기부터 필요한 경우 반품하기까지 소비자의 온라인 구매를 도울 수 있도록 설계된 오픈 소스 프로토콜을 도입했습니다.

새로운 소식: 유니버설 커머스 프로토콜(Universal Commerce Protocol, UCP)은 소비자, 플랫폼, 판매자 및 결제 제공업체를 대신하여 에이전트가 트랜잭션(Transactions)을 실행할 수 있도록 프로그래밍하기 위한 표준화된 명령을 제공합니다. 에이전트는 옵션을 제시하고, 주문을 제출하며, 결제를 정리하고, 풀필먼트(Fulfillment)를 관리할 수 있습니다. 기업은 자신이 지원하는 기능을 선언하고, 자동화된 및/또는 개인화된 쇼핑 서비스를 제공하거나, 트랜잭션을 촉진할 수 있습니다. UCP는 Apache 2.0 라이선스 하에 게시됩니다.

작동 방식: UCP는 에이전트가 기존의 소매 검색, 결제 및 판매자 인프라를 사용하여 작동할 수 있도록 지원합니다. Google은 Etsy, Shopify, Target, Walmart, Wayfair를 포함한 이커머스(ecommerce) 기업들뿐만 아니라 American Express, Mastercard, Stripe, Visa를 포함한 결제 제공업체들과 협력하여 이를 개발했습니다.

이 프로토콜은 소비자(계정 및 자격 증명 포함), 플랫폼(예: 검색 엔진 또는 온라인 스토어), 판매자, 상품 또는 서비스(속성, 특징, 가격 및 로열티 보상과 같은 특별 고려 사항 포함), 결제, 풀필먼트(fulfillment), 그리고 배송과 상호작용하기 위한 명령(commands) 및 변수(variables)를 정의합니다.
결제, 신원 확인(identity), 보안을 위해 개방형 표준(open standards)을 사용합니다. 마찬가지로, Model Context Protocol (도구 및 데이터 액세스), Agent2Agent (에이전트 간 협업), Agent Payments Protocol (결제 제공업체와의 안전한 상호작용)을 포함한 다양한 개방형 에이전트 프로토콜(open agentic protocols)과 호환됩니다. 이는 OpenAI의 Agentic Commerce Protocol과 경쟁하지만, 두 프로토콜은 병행하여 작동할 수 있습니다.
Google은 Gemini 앱 및 Google Search AI Mode(검색 엔진의 AI Overview 하단에 있는 “Dive deeper in AI Mode”를 클릭하여 사용 가능)에서 생성된 AI 생성 응답 내에 판매용 제품을 표시하기 위해 UCP를 사용합니다. 이러한 AI 생성 제품 목록은 Google Wallet 또는 PayPal에 저장된 자격 증명으로 인증된 Google Pay를 통해 결제를 수락합니다.

뉴스 배경: Google은 AI 기반 커머스를 위한 일련의 기능들과 함께 UCP를 출시했습니다.

Business Agent는 기업이 Google Search에서 잠재 고객과 대화할 수 있는 브랜드 에이전트 (Branded Agent)를 구축할 수 있도록 지원합니다. 초기 참여 기업으로는 Lowe’s, Michael’s, Poshmark, Reebok 등이 있습니다.
Direct Offers라고 불리는 파일럿 프로그램은 Google Search AI Mode를 사용하여 판매 중인 상품에 대한 정보를 찾는 사용자에게 특별 혜택을 제공합니다.
소매업체는 Google의 Merchant Center에 새로운 유형의 정보를 추가하여 Google Search AI Mode, Gemini, 그리고 Business Agent가 자사의 이름을 언급하도록 유도할 수 있습니다. 이러한 정보에는 특정 상품을 보완하는 액세서리, 특정 상품의 대안, 그리고 일반적인 질문에 대한 답변 등이 포함됩니다.

의미 (Why it matters): 소비자들은 제품 정보와 추천을 받기 위해 점점 더 챗봇 (Chatbots)에 의존하고 있습니다. UCP는 소비자들이 찾은 것을 더 쉽게 구매할 수 있게 만들어 (소비자에게 이득) 충동구매를 유도합니다 (판매자에게 이득). 또한 Google이 챗봇 내 광고 표시를 실험함에 따라 Google의 광고 사업을 보완합니다. 아울러 이는 기업 규모의 비즈니스가 전체 공급망 (Supply Chains) 관리를 위해 협업하는 독립적인 에이전트들을 구축할 수 있는 길을 열어줄 수도 있습니다.

우리의 생각 (We’re thinking): UCP는 개방형 프로토콜 (Open Protocol)이지만, 판매자들의 채택은 분명 Google과 다른 애그리게이터 (Aggregators)들에게 이득이 됩니다. 이전 시대에 Google은 Google Shopping을 통해 소비자 검색을 장악하려 시도했으나 제한적인 견인력만을 얻었습니다. 만약 Google이 판매자들을 설득하여 카탈로그를 개방하고, 이를 통해 Gemini 및 기타 챗봇들이 사용자의 쇼핑을 도울 수 있게 한다면, Google은 챗봇 운영자들에게 엄청난 권력을 부여하는 방식으로 쇼핑을 통합할 수 있게 될 것입니다.

Collage with comic strip, concert poster, diagrams on water cycle and trash sorting, and movie poster.

이미지 내 텍스트 정교화 (Refining Words in Pictures)

이미지 생성기 (Image Generators)는 종종 텍스트를 엉망으로 만듭니다. 한 오픈 웨이트 (Open-weights) 모델이 텍스트 렌더링 (Text Rendering) 측면에서 오픈 소스 및 독점 경쟁 모델들을 능가합니다.

새로운 소식 (What’s new): Z.ai는 두 단계로 작동하는 오픈 웨이트 이미지 생성기인 GLM-Image를 출시했습니다. 한 단계에서는 이미지의 레이아웃 (Layout)을 결정하고, 두 번째 단계에서는 세부 사항을 채웁니다. 여기에서 직접 체험해 볼 수 있습니다.

입력/출력 (Input/output): 텍스트, 텍스트 및 이미지 입력, 이미지 출력 (1,024x1,024 픽셀에서 2,048x2,048 픽셀)
아키텍처 (Architecture): 이전 GLM-4-9B-0414를 미세 조정(fine-tuned)한 자기회귀 트랜스포머 (Autoregressive transformer, 90억 개의 파라미터), 이전 확산 트랜스포머(diffusion transformer)인 CogView4를 기반으로 한 디코더 (decoder, 70억 개의 파라미터), Glyph-ByT5 텍스트 인코더 (text encoder)
특징 (Features): 이미지 변경 (Image alteration), 스타일 전이 (style transfer), 정체성 일관성 (identity consistency), 다중 피사체 일관성 (multi-subject consistency)
가용성 (Availability): MIT 라이선스에 따라 비상업적 및 상업적 용도로 가중치(Weights) 무료 다운로드 가능, API 액세스 이미지당 $0.015
미공개 사항 (Undisclosed): 학습 데이터 (Training data)

작동 원리 (How it works): 텍스트 또는 텍스트 및 이미지 프롬프트(prompt)가 주어지면, GLM-Image의 자기회귀 모델은 출력 이미지의 레이아웃을 패치(patch) 단위로 나타내는 약 256개의 저해상도 토큰(tokens)을 생성한 다음, 출력 이미지의 해상도에 따라 비례적으로 더 작은 패치를 나타내는 1,000개에서 4,000개의 고해상도 토큰을 생성합니다. 텍스트 렌더링 (text rendering)을 개선하기 위해, Glyph-ByT5 텍스트 인코더는 렌더링될 각 문자의 모양을 나타내는 토큰을 생성합니다. 디코더는 고해상도 토큰과 텍스트 토큰을 받아 이미지를 생성합니다.

팀은 강화학습 (reinforcement learning) 방법인 GRPO를 사용하여 두 가지 구성 요소를 별도로 학습시켰습니다.
자기회귀 모델은 세 가지 보상 (rewards)으로부터 학습했습니다: (i) 명시되지 않은 시각-언어 모델 (vision-language model)이 이미지가 프롬프트와 얼마나 잘 일치하는지 판단; (ii) 명시되지 않은 광학 문자 인식 (optical character-recognition, OCR) 모델이 생성된 텍스트의 가독성 (legibility)을 점수화; (iii) 인간의 선호도에 따라 학습된 모델인 HPSv3가 시각적 매력도를 평가.
디코더는 세부 사항과 관련된 세 가지 보상으로부터 학습했습니다: 출력이 참조 이미지와 얼마나 밀접하게 일치하는지 점수를 매기는 LPIPS, 생성된 텍스트의 가독성을 점수화하는 명시되지 않은 광학 문자 인식 모델, 그리고 생성된 손의 해부학적 정확성 (anatomical correctness)을 점수화하는 명시되지 않은 손 정확도 (hand-correctness) 모델.

성능 (Performance): Z.ai의 테스트에서 GLM-Image는 영어 및 중국어 텍스트 렌더링 (rendering) 분야에서 오픈 웨이트 (open-weights) 모델 중 선두를 차지했으나, 프롬프트 준수 (adherence to prompts) 측면에서는 중간 정도의 성능을 보였습니다. Z.ai는 미적 품질 (aesthetic quality)에 대한 테스트 결과는 발표하지 않았습니다.

영어 텍스트 렌더링을 테스트하는 벤치마크인 CVTG-2K에서 GLM-Image는 약 91.16%의 평균 단어 정확도 (average word accuracy)를 달성하였으며, 이는 오픈 웨이트 모델인 Z-Image (86.71%)와 Qwen-Image-2512 (86.04%)보다 뛰어난 수치입니다. 또한 폐쇄형 (proprietary) 모델인 Seedream 4.5 (89.9%)보다도 높은 성능을 기록했습니다.
LongText-Bench는 영어와 중국어로 된 길고 여러 줄인 텍스트의 렌더링을 평가합니다. 중국어의 경우, GLM-Image (97.88%)는 오픈 웨이트 모델인 Qwen-Image-2512 (96.47%)와 폐쇄형 모델인 Nano Banana 2.0 (94.91%)을 앞섰으나, Seedream 4.5 (98.73%)에는 뒤처졌습니다. 영어 부분에서는 GLM-Image (95.24%)가 Qwen-Image-2512 (95.61%)와 거의 대등한 수준을 보였으나, Seedream 4.5 (98.9%)와 Nano Banana 2.0 (98.08%)에는 미치지 못했습니다.
다양한 속성과 관계를 가진 여러 객체를 설명하는 프롬프트에 생성된 이미지가 얼마나 잘 부합하는지를 언어 모델 (language model)로 판단하는 DPG-Bench에서, GLM-Image (84.78%)는 Janus-Pro-7B (84.19%)를 앞질렀으나 Seedream 4.5 (88.63%)와 Qwen-Image (88.32%)에는 미치지 못하는 성능을 보였습니다.

에이전트의 쇼핑, 재정의되는 지능, 이미지 내 더 나은 텍스트, 높은 참여도가 의미하는 더 낮은 정렬(Alignment)

요약

핵심 포인트

DEEPLEARNING.AI의 메시지

뉴스

AI 에이전트를 위한 쇼핑 프로토콜

이미지 내 텍스트 정교화 (Refining Words in Pictures)

댓글