당신의 AI 에이전트에는 GPU가 필요합니다 — 하지만 당신이 생각하는 이유 때문은 아닙니다 - Insights | Molayo

API는 두뇌입니다. 로컬 GPU는 손입니다. 당신은 둘 다 필요하지만, 거의 모든 사람이 잘못된 것을 쇼핑하고 있습니다.

모두가 던지는 질문

현재 시장에는 네 가지 데스크톱급 GPU 머신이 있습니다. 이들을 합치면 근사한 저녁 식사 비용부터 중고차 가격에 이르기까지 20배의 가격 범위를 아우릅니다. 이 모든 제품은 동일한 지표로 평가받고 있습니다:

"집에서 Llama를 돌릴 수 있는가?"

이것은 잘못된 질문입니다.

여기 아무도 듣고 싶어 하지 않는 계산 결과가 있습니다. 총 2,840억 개의 파라미터를 가진 프런티어 Mixture-of-Experts (MoE) 모델인 DeepSeek V4 Flash는 공식 API를 통해 출력 토큰 100만 개당 0.18달러의 비용이 듭니다. 심하게 양자화 (Quantized)된 버전을 실행하는 7,500달러짜리 DGX Spark에서는 초당 약 15개의 토큰을 얻을 수 있습니다.

7,500달러로는 API를 통해 417억 개의 토큰을 살 수 있습니다. 초당 15개 토큰의 속도로 로컬에서 그만큼의 토큰을 생성하려면 88년 동안 연속으로 실행해야 합니다. 전기 요금만으로도 추가로 9,300달러가 더 들 것입니다.

API가 더 빠릅니다. API가 더 저렴합니다. API는 항상 최신 상태를 유지합니다. 프런티어 LLM 추론 (Inference)에 있어서 경제성은 이미 결정되었으며, 로컬 GPU는 결정적으로 패배합니다.

그렇다면 왜 누군가는 AI를 위해 GPU 박스를 구매하는 것일까요?

한 파워 유저는 이미 그 답을 몸소 보여주고 있습니다. 하지만 그에 대해 이야기하기 전에, 당신의 에이전트가 하루 종일 실제로 무엇을 하는지 이야기해 봅시다.

에이전트가 실제로 하는 일

AI 에이전트가 깨어납니다. 밤새 녹음된 팟캐스트를 전사 (Transcribe)합니다. 아침 블로그 포스트를 위한 헤더 이미지를 생성합니다. 공유를 위해 어제의 4K 영상을 압축합니다. 당신이 선택한 목소리로 일기 예보를 소리 내어 읽어줍니다. 이 중 그 어떤 것도 LLM 호출이 아닙니다. 그들 각각은 모두 GPU 호출입니다.

저는 친구의 창고에 있는 유닛에서 사람들이 이렇게 하는 것을 지켜보았습니다. 실제 거래, 실제 인프라, 가설이 아닌 실제 상황입니다:

사용자: (MX, SPF, DKIM CNAME, DMARC, autodiscovery SRV 등 가공되지 않은 DNS 레코드 한 페이지 전체를 붙여넣음)
에이전트 (Agent): (6가지 레코드 유형을 파싱하고, DNS 제공업체의 API를 호출하며, 모든 설정을 구성함)
에이전트 (Agent): 완료되었습니다. 이메일이 활성화되었습니다. SPF와 DKIM이 구성되었으며, DMARC는 모니터링을 위해 p=none으로 설정되었습니다.

그들은 DNS 패널을 열어본 적도 없습니다. MX 레코드가 무엇인지 배운 적도 없습니다. 그들은 시스템 관리자 (sysadmin)가 아니라 배달원 (courier)이었습니다.

사용자: 사진 서버 업데이트해줘
에이전트 (Agent): (홈 서버에 접속하여 실행 중인 서비스를 확인하고, 업데이트된 이미지를 가져오며, 스택을 재구성하고, 상태를 검증함)
에이전트 (Agent): 업데이트되었습니다. 다운타임은 30초 미만이었습니다. 모든 상태가 정상입니다.

단 두 단어였습니다. 실행 과정은 암호화된 터널을 통한 다단계 작업이었습니다. 인간은 터미널 (terminal)을 구경조차 하지 못했습니다.

이것이 패턴입니다. 에이전트는 기계적 장벽 (mechanical barrier)을 처리합니다. 인간은 판단의 장벽 (judgment barrier)을 처리합니다. 그리고 이 기계적 작업은 거의 전적으로 GPU에 종속되어 있습니다.

에이전트의 도구 체인 (tool chain)은 실제로 다음과 같이 구성됩니다:

에이전트가 호출하는 것	유명 소프트웨어	GPU 사용 여부	생성되는 결과물
음성-텍스트 변환 (Speech-to-text)	faster-whisper, WhisperX	✅ GPU 가속 사용	검색 가능한 전사 (transcripts)
...

이것들은 예외적인 사례가 아닙니다. 에이전트가 지속적으로 수행하는 작업들입니다. 상주형 에이전트 (persistent agent)는 점심 식사 전까지 Whisper를 하루에 40번 실행하고, 수십 개의 이미지를 생성하며, 3개의 비디오를 인코딩하고, 천 장의 사진을 분류할 수도 있습니다. LLM 호출이 헤드라인이라면, GPU 호출은 예산입니다.

인쇄물이 아닌 프린터

아무도 압출기 (extruder)를 감상하기 위해 3D 프린터를 사지 않습니다. 공룡 피규어, 교체 부품, 특정 문제를 해결해 줄 맞춤형 브래킷을 얻기 위해 삽니다. 프린터는 수단일 뿐입니다.

가장 중요한 네 가지 GPU 워크로드(workload) — 즉, 프린터에서 나오는 장난감들은 다음과 같습니다:

1. 오디오(Audio) → 검색 가능한 아카이브(Searchable Archive). Whisper는 로컬 GPU에서 2시간 분량의 녹음 파일을 몇 분 만에 전사(transcribe)합니다. 당신의 에이전트는 "할머니께서 1:14:30에 결혼식 이야기를 하셨어요"라고 말해줄 수 있습니다. 어떤 오디오도 네트워크를 벗어나지 않습니다. 전사된 텍스트는 당신의 금고(vault)에 영구적으로 검색 가능한 상태로 저장되며, 하드웨어 비용을 제외하면 추가 비용은 제로입니다.

2. 텍스트(Text) → 자연스러운 목소리(Natural Voice). Piper TTS 또는 XTTSv2는 일관된 목소리로 내레이션을 생성합니다. 당신의 에이전트는 블로그 포스트를 팟캐스트처럼 읽어줍니다. 알림을 소리 내어 말해주고, 슬라이드 덱(slide decks)을 설명합니다. ElevenLabs 구독도, 사용량 제한도 필요 없습니다. 목소리는 온전히 당신의 것입니다.

3. 가드레일 없는 이미지 생성(Image Generation Without Guardrails). Midjourney는 정치 풍자 이미지를 생성하지 않습니다. DALL-E는 무해한 프롬프트에도 경고를 띄웁니다. FAL에는 콘텐츠 정책이 있습니다. 당신의 GPU에서 실행되는 ComfyUI에는 가드레일이 없습니다. 이는 당신이 사악한 것을 생성하고 싶어서가 아니라, 샌프란시스코에 있는 제품 매니저가 당신의 창작 활동에 있어 무엇이 "안전"한지를 결정하는 것을 원치 않기 때문입니다. 당신이 모델을 소유합니다. 누구도 당신의 하드웨어에 필터를 추가할 수 없습니다.

4. 비디오 편집(Video Editing) — 90%의 초안. 비디오 편집은 지루하고 고통스러우며, 대부분의 사람들은 이를 잘 해내지 못합니다. ffmpeg와 GPU 인코딩(encoding) 기능을 갖춘 에이전트는 기계적인 작업의 90%를 수행할 수 있습니다. 푸티지(footage)를 탐색하고, 흥미로운 순간을 찾고, 정확한 타임스탬프에서 세그먼트를 자르고, 전환 효과(transitions)를 추가하고, 저작권 없는 음악을 동기화하며, 거의 완성된 비디오를 렌더링(render)하는 작업 말입니다. 2시간 분량의 가족 녹화 영상이 주말 내내 걸리는 작업이 아니라, 20분 만에 4분짜리 하이라이트 영상으로 변합니다. 타임라인을 3시간 동안 훑는 대신, 10분 동안 속도감(pacing)만 조정하면 됩니다. 스필버그(Spielberg) 수준은 아니더라도, 단순 반복 작업(grunt work)은 끝납니다.

_(솔직히 말씀드리면: 텍스트로 클립을 만드는 AI 비디오 생성(AI video generation)은 꿈이 열적 한계(thermal limits)에 부딪히는 지점입니다. 12GB 소비자용 GPU에서 24fps로 5초짜리 클립을 만드는 데 30분이 걸릴 수 있습니다. 오늘날 빛을 발하는 것은 비디오 *편집(editing)입니다. 생성 기술은 곧 따라잡을 것입니다.)

기계들 (The Machines)

다섯 대의 기계. 다섯 가지의 개성. 단 하나의 질문: 당신의 에이전트가 실제로 수행하는 GPU 작업에 어떤 기계가 합리적일까요?

249달러짜리 CUDA 보조 프로세서 — Jetson Orin Nano Super

NVIDIA는 Orin Nano 개발자 키트(Developer Kit)의 가격을 절반으로 낮추고 클럭 속도를 높였습니다. 그 결과, 손바닥 크기의 보드에서 7~25와트(W)를 소비하며 32개의 텐서 코어 (Tensor Cores)를 갖춘 1024코어 Ampere GPU를 사용할 수 있게 되었습니다. 이 기기는 CUDA를 네이티브로 실행합니다. 다른 NVIDIA GPU와 마찬가지로 llama.cpp를 컴파일할 수 있습니다. 신발 상자 크기에 쏙 들어갑니다.

249달러라는 가격은 돈을 낭비할지도 모른다는 두려움을 없애줍니다. 당신은 이것을 만져보기 위해 하나를 삽니다. 그러다 보면 어느새 세 개를 사서 랙(rack)에 함께 장착하고, 총 소비 전력 75와트 미만으로 YOLO와 Whisper를 24시간 내내 구동하고 있는 자신을 발견하게 될 것입니다. 일부 열성 팬들은 이를 미니 클러스터(cluster)로 구성하여 사용하기도 합니다. 잠들지 않는 750달러 규모의 엣지 컴퓨팅 (edge compute) 환경을 구축하는 것입니다.

단점: 8GB의 통합 메모리 (unified memory)입니다. 7B 모델, Stable Diffusion, Blender는 사용할 수 없습니다. 이것은 워크스테이션 (workstation)이 아니라 전용 보조 프로세서 (co-processor)입니다. 아주 적은 전기료만으로 비전 (vision)과 오디오 (audio) 작업을 조용히, 영원히 수행합니다.

오픈 소스의 챔피언 — Framework Desktop (AMD Strix Halo)

Framework는 AMD의 Strix Halo APU를 탑재한 데스크톱을 출시했습니다. 표준 Linux가 구동되는 사용자 수리 가능 x86 보드에 16개의 Zen 5 코어, 40개의 RDNA 3.5 컴퓨팅 유닛 (compute units), 그리고 128GB의 통합 메모리가 탑재되어 있습니다. 128GB 구성의 전체 시스템 가격은 3,449달러입니다. 그리고 Framework는 새로운 흐름을 만들어냈습니다. Sapphire와 같은 AMD 파트너들이 이제 자체적인 Strix Halo 박스를 출하하고 있으며, 동남아시아 시장에는 얼리어답터들의 고통을 거치지 않은 저가형 옵션들이 새롭게 출시되고 있습니다.

주목할 만한 세부 사항: 오픈 소스 Vulkan 커뮤니티 드라이버가 때때로 AMD 자체의 ROCm 스택보다 더 나은 성능을 보여준다는 점입니다. 독립 테스터들의 벤치마크에 따르면, 동일한 하드웨어에서 Vulkan이 ROCm보다 초당 토큰 생성량 (tokens per second)이 17% 더 높았습니다. 커뮤니티가 제조사를 능가하여 최적화한 것입니다. 이것이 하드웨어 형태로 구현된 오픈 소스의 정신입니다.

단점: 네이티브 CUDA를 지원하지 않습니다. ROCm이나 Vulkan을 사용해야 합니다. AI 스택이 따라잡고는 있습니다 — llama.cpp는 HIP를 지원합니다 — 하지만 CUDA는 여전히 대부분의 AI 소프트웨어에 대한 참조 플랫폼 (reference platform)입니다. 만약 어떤 도구가 "pip install torch"를 실행하며 CUDA를 가정한다면, 당신은 (코드를) 번역해야 할 것입니다.

문제 많은 천재 — NVIDIA DGX Spark

CES 2025에서 Jensen Huang은 Project DIGITS를 발표했습니다. 이는 128GB의 통합 메모리(unified memory), Grace Blackwell GB10 슈퍼칩, 그리고 1 petaflop의 FP4 성능을 갖춘 3,000달러짜리 개인용 AI 슈퍼컴퓨터입니다. 하지만 이것이 "DGX Spark"라는 이름으로 출시되었을 때는 가격이 4,000달러로 뛰었고, 열 스로틀링(thermal-throttling)으로 인해 정격 전력의 절반 수준으로 제한되었습니다.

John Carmack은 이를 공개적으로 비판했습니다. ServeTheHome은 240W 전력 제한을 맞출 수 없음을 확인했습니다. Reddit에서는 이를 "4,000달러짜리 황금 문전(golden paperweight)"이라고 불렀습니다. 이 기간 동안 동남아시아에서 판매된 소수의 유닛들은 성능이 제한된(gimped) 제품들이었습니다.

그러다 2026년 1월, NVIDIA는 펌웨어(firmware) 업데이트를 출시했습니다. 이 업데이트는 전체 전력 예산(power budget)을 해제했습니다. 하룻밤 사이에 DGX Spark는 약속되었던 바로 그 기계가 되었습니다. 이제 이 기기는 단일 박스에서 2,840억 개의 파라미터를 가진 MoE 모델인 DeepSeek V4 Flash를 초당 15개의 토큰(15 tokens per second) 속도로 실행합니다. vLLM은 이를 위한 공식 Docker 이미지를 배포합니다. ConnectX-7을 통해 연결된 두 대의 Spark는 256GB의 메모리 풀을 형성하여 405B 모델을 실행할 수 있습니다.

교훈은 이렇습니다: 두 번째 배치(batch)를 기다리십시오. 오늘 Spark를 구매한다면 진짜를 얻게 될 것입니다. 시중 가격은 7,500달러입니다. 순수 AI 성능 면에서는 CUDA와 Blackwell 텐서 코어(tensor cores)의 조합이 이 체급의 다른 모든 것을 압도합니다. 다만, 첫 번째 물결(first wave)이 되지는 마십시오.

우아한 이방인 — Mac Studio M4 Max

Mac Studio M4 Max는 메모리 대역폭(memory bandwidth) 측면에서 이 그룹 중 가장 빠른 기계입니다. Spark의 273 GB/s 및 Strix Halo의 약 215 GB/s와 비교했을 때 546 GB/s를 제공합니다. 이 기기는 조용하고, 65W의 전력만 소비하며, llama.cpp의 Metal 포트에서 DeepSeek V4 Flash를 초당 약 21개의 토큰 속도로 실행합니다 — 이는 Spark보다 빠릅니다.

하지만 이 기기는 macOS를 실행합니다. 그리고 소프트웨어의 격차는 엄청납니다:

원하는 소프트웨어	Mac에서 실행 가능?
vLLM — 프로덕션 LLM 서빙	❌ 존재하지 않음
...

하드웨어는 세계 최고 수준입니다. 하지만 소프트웨어는 벨벳 감옥(velvet cage)과 같습니다. 만약 당신이 전적으로 Apple의 생태계 내에서 살며 모든 것에 MLX를 사용한다면, 이 기기는 빠르고 우아합니다. 하지만 그 범위를 벗어나는 순간, 당신은 타인의 CUDA 가정을 MPS에 대한 희망으로 번역해야만 합니다.

재활용된 핫로드(Hot Rod) — 기존의 게이밍 GPU

이미 GPU를 보유하고 있을지도 모릅니다. RTX 3080 Ti가 장착된 게이밍 PC는 Spark를 제외하고는 그 어떤 것보다 많은 CUDA 코어를 가지고 있습니다. 이 장치는 Blender 렌더링과 ffmpeg 인코딩을 다른 기기들이 평범해 보일 정도의 속도로 처리합니다. 만약 이미 소유하고 있다면, 이를 버스트 컴퓨팅 노드 (burst compute node)로 배치하는 데 드는 비용은 0원입니다.

하지만 소음이 문제입니다. 게이밍 GPU는 거주 공간에서 24시간 내내 가동되도록 만들어진 것이 아니라, 벤치마크 (benchmarks)를 위해 제작되었습니다. 팬이 회전하기 시작하면 소음이 신경 쓰이게 되고, 결국 전원을 끄게 됩니다. 이는 항상 켜져 있어야 하는 컴퓨팅 (always-on compute)의 목적에 어긋납니다.

수냉 (Watercooling) 방식은 소음 문제를 해결해 줍니다. 하지만 새로운 문제를 야기합니다. 펌프가 고장 나고, 루프 (loops)에서 누수가 발생합니다. 유지보수 또한 만만치 않습니다. 수냉식 GPU를 몇 달 동안 24시간 내내 가동하는 것은 하드웨어가 설계된 목적과는 다른 인내력 테스트와 같습니다.

3080 Ti는 당신이 이미 가지고 있는 장비입니다. 이는 추가 지출 없이 지금 바로 시작할 수 있다는 증거입니다. 또한, 결국에는 조용하고 효율적이며 영구적으로 실행되도록 설계된, 목적에 맞게 제작된 하드웨어 (purpose-built hardware)로 당신을 이끄는 장비이기도 합니다.

아키텍처 (The Architecture)

이 구성 요소들이 어떻게 연결되는지는 다음과 같습니다:

Agent GPU architecture — VPS brain, three GPU tiers, Tailscale connecting everything

VPS는 에이전트의 두뇌 (agent brain) 역할을 수행합니다 — 오케스트레이션 (orchestrating), 의사 결정, 그리고 DeepSeek 또는 Claude API를 통한 프런티어 LLM (frontier LLMs) 호출을 담당합니다. VPS는 항상 켜져 있고, 언제든 접속 가능하며, 월 $6–12의 비용이 들고, GPU가 전혀 필요하지 않습니다. GPU 노드들은 메시 VPN (mesh VPN) 상에 존재하며, 각 노드는 두뇌가 호출할 수 있는 엔드포인트 (endpoints)로서 자신의 연산 자원을 노출합니다: Strix Halo 상의 ollama, Orin Nano 상의 whisper, 3080 Ti 상의 ComfyUI와 같은 방식입니다.

Insights

당신의 AI 에이전트에는 GPU가 필요합니다 — 하지만 당신이 생각하는 이유 때문은 아닙니다

요약

핵심 포인트

모두가 던지는 질문

에이전트가 실제로 하는 일

인쇄물이 아닌 프린터

기계들 (The Machines)

249달러짜리 CUDA 보조 프로세서 — Jetson Orin Nano Super

오픈 소스의 챔피언 — Framework Desktop (AMD Strix Halo)

문제 많은 천재 — NVIDIA DGX Spark

문제 많은 천재 — NVIDIA DGX Spark

우아한 이방인 — Mac Studio M4 Max

재활용된 핫로드(Hot Rod) — 기존의 게이밍 GPU

아키텍처 (The Architecture)

댓글

무료 도구를 사용하여 NextJS 웹사이트에 AI 챗봇 배포하기

AI 규칙을 스스로 검증 가능하게 만든 방법

MiniMax M3: 100만 토큰 컨텍스트와 최첨단 코딩 능력을 갖춘 최초의 오픈 웨이트 (Open-Weight) 모델

H-DenseUNet: CT 볼륨에서 간 및 종양 분할을 위한 하이브리드 밀집 연결 UNet (Hybrid Densely Connected

무료 도구를 사용하여 NextJS 웹사이트에 AI 챗봇 배포하기

AI 규칙을 스스로 검증 가능하게 만든 방법

MiniMax M3: 100만 토큰 컨텍스트와 최첨단 코딩 능력을 갖춘 최초의 오픈 웨이트 (Open-Weight) 모델

H-DenseUNet: CT 볼륨에서 간 및 종양 분할을 위한 하이브리드 밀집 연결 UNet (Hybrid Densely Connected