멀티미디어 빌딩 블록

요약

본 글은 AI가 단일한 거대 소프트웨어(monolith) 대신 작고 문서화된 구성 요소들을 연결하는 '빌딩 블록 경제'로 진화하고 있음을 설명합니다. 특히 Hugging Face Spaces와 같은 플랫폼이 최첨단 멀티미디어 모델을 에이전트가 쉽게 호출하고 체인으로 연결할 수 있는 형태로 제공하며, 복잡한 통합 과정을 간소화하고 있습니다.

핵심 포인트

AI의 미래는 거대 시스템보다 작은 구성 요소들의 조합(조립)에 달려있다.
Hugging Face Spaces는 멀티미디어 AI 모델을 에이전트가 호출하기 쉬운 '블록' 형태로 제공한다.
핵심은 개별 모델 자체가 아니라, 여러 블록을 연결하는 '체이닝(chaining)' 능력이다.
에이전트는 API 스키마를 읽고 복잡한 통합 과정 없이도 파이프라인 전체를 구동할 수 있다.

TripoSplat

단일 이미지에서 3D 모델 생성

저는 코딩 에이전트에게 파리의 기념물들을 3D 가우시안 스플랫으로 보여주는 아름다운 웹사이트를 만들도록 요청했습니다. 저는 이미지 생성기를 사용한 적도, 3D 재구성 도구를 만져본 적도 없습니다. 하지만 이 에이전트는 두 Hugging Face Spaces를 직접 호출하여 모든 자산(이미지 및 3D 스플랫)을 생성했고, 이를 시네마틱 뷰어에 연결했습니다.

결과는 정적 Space로 라이브입니다:

[IMG:N]

이 게시물은 어떻게 이것이 가능해졌는지, 그리고 제가 생각하기에 많은 멀티미디어 소프트웨어가 앞으로 여기서부터 구축될 것임을 보여주는 미리보기라고 생각하는 이유에 관한 것입니다.

Mitchell Hashimoto는 최근 '빌딩 블록 경제(building block economy)'라고 부르는 변화를 설명했습니다. 그가 말하는 바는 다음과 같습니다:
소프트웨어로 가는 가장 효과적인 경로는 더 이상 세련된 단일체(monolith)가 아니라, 다른 사람들(점점 더 에이전트)이 조립할 수 있는 작고 잘 문서화된 구성 요소들입니다.
그의 핵심 관찰은 이렇습니다: AI는 모든 것을 처음부터 구축하는 것은 괜찮지만, 입증된 조각들을 연결하는 것에는 정말 능숙하다는 것입니다.

이 논지는 주로 코드 라이브러리로 이야기되어 왔습니다. 하지만 같은 힘이 멀티미디어 AI에도 영향을 미치고 있습니다. 최첨단 이미지 모델, 비디오 모델, TTS 모델 또는 3D 재구성 모델을 사용하는 것의 어려운 부분은 결코 그 모델 자체가 아니었습니다. 그것은 통합(integration)이었습니다: SDK, 가중치(weights), GPU, 입력 형식, 폴링(polling). 만약 각 모델이 문서화되고 호출 가능한 블록이었다면, 에이전트는 마치 npm 패키지들을 연결하듯이 이들을 함께 조립할 수 있을 것입니다.

바로 이것이 Hugging Face Spaces가 조용히 되어가고 있는 모습입니다.

The Hub는 수천 개의 최첨단 모델(그중 상당수가 오픈 가중치(open-weights))을 호스팅하며, 대부분은 상호작용적인 Spaces로 배포됩니다. 현재 모든 Gradio Space는 또한 평문 agents.md를 노출하여 에이전트에게 이를 정확히 어떻게 호출해야 하는지 알려줍니다:

curl https://huggingface.co/spaces/VAST-AI/TripoSplat/agents.md

이는 필요한 모든 것을 한 번에 반환합니다: 스키마 URL, 호출 및 폴링 템플릿, 파일 업로드 방법, 그리고 인증 힌트까지:

API 스키마:
GET .../gradio_api/info
호출 엔드포인트: POST .../gradio_api/call/v2/{endpoint} {"param_name": value, ...}
결과 폴링: GET .../gradio_api/call/{endpoint}/{event_id}
...

클라이언트 라이브러리도, 하드코딩된 통합(integration)도 필요 없습니다. 에이전트가 이것을 읽고 Space를 처음부터 끝까지 구동할 수 있습니다. HF_TOKEN을 설정하면 바로 작동합니다.

진정한 핵심은 **체이닝(chaining)**입니다. 하나의 Space의 출력이 다음 Space의 입력이 됩니다. 프롬프트 → 이미지 → 3D. 이것이 이 갤러리 뒤에 있는 전체 파이프라인입니다.

이 에이전트는 두 개의 Space를 체인으로 연결했습니다:

VAST-AI/TripoSplat
각 단일 이미지에서 3D 가우시안 스플랫(.ply)을 재구성했습니다. 이미지를 넣으면, 3D가 나옵니다.
[생성된 이미지]
재구성된 스플랫
에이전트가 생성한 여섯 개의 소스 이미지는 모두 검은 배경 위에 분리되어 단일 이미지 3D 재구성에 사용될 준비를 마쳤습니다:

그 후 에이전트는 '접착' 작업도 수행했습니다. TripoSplat의 출력물이 Y축 방향으로 뒤집혀 있는 것을 감지하고 똑바로 세웠으며, 각 기념물을 자동 프레임 처리하고, .ply 파일을 .ksplat 파일로 압축했습니다(~3배 작아져서 빠르게 로드됩니다), 그리고 스크롤하여 전환하고 드래그하여 회전하는 UI를 가진 Three.js 뷰어를 구축하여 전체 것을 정적 Space로 배포했습니다. 유일하게 인간의 개입이 필요했던 부분은 취향 수준이었습니다:

링크를 코딩 에이전트(Claude Code 등)에 붙여넣고, HF_TOKEN을 설정한 다음, 무언가를 만들도록 요청하세요. 이 갤러리에 대한 전체적이고 재현 가능한 파이프라인과 두 개의 agents.md 엔드포인트를 호출하는 스크립트는 Space 리포지토리에 있습니다.

빌딩 블록들은 허브에 그대로 놓여 있습니다. 에이전트들은 이미 어떻게 연결해야 하는지 알고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

멀티미디어 빌딩 블록

요약

핵심 포인트

TripoSplat

댓글