DGX Spark 기반 로컬 에이전트를 활용하여 웹사이트의 기사를 10분 분량의 내레이션 영상으로 제작한 후기 (ComfyUI나 기타

요약

DGX Spark 환경에서 오픈 모델만을 활용하여 웹 기사를 10분 분량의 영상으로 자동 제작하는 로컬 AI 에이전트 구축 후기입니다. 에이전트가 오케스트레이션, 이미지/비디오 생성, 음성 클로닝, 영상 편집(ffmpeg)까지 전 과정을 스스로 수행하며 오류를 자가 수정하는 과정을 다룹니다.

핵심 포인트

오픈 모델(Qwen, Wan, Whisper 등) 기반의 완전한 로컬 미디어 생성 파이프라인 구축
에이전트가 Whisper를 활용해 음성 반복 및 환각을 스스로 감지하고 재시도하는 루프 구현
시각 능력을 갖춘 모델을 통해 생성된 이미지와 비디오의 품질을 스스로 검토 및 수정
ffmpeg 필터그래프를 코드로 직접 생성하여 자막, 줌, 오디오 믹싱 등 정교한 편집 수행

저는 '로컬 AI의 현황 (State of Local AI)'에 대한 분석 글을 작성했고(이전 스레드에서 어느 정도 좋은 반응을 얻었습니다), 코딩/개인 비서 에이전트가 단순히 코드를 작성하거나 웹을 조사하는 것을 넘어 이를 실제 영상으로 바꿀 수 있는지 확인하고 싶었습니다. 그래서 에이전트에게 작업을 지시하고 매 단계마다 피드백을 주었습니다. 에이전트는 처음부터 끝까지 모든 과정을 수행했습니다. 저의 모든 상호작용은 LLM/하네스 (LLM/harness)와 이루어졌습니다. 저는 ComfyUI를 한 번도 열지 않았고, 노드 그래프 (node graph)를 만지지도 않았으며, 이미지나 비디오 모델을 직접 건드리지도 않았습니다. 그래서 이 글을 Stable Diffusion 서브레딧이 아닌 이곳에 의도적으로 올립니다. 에이전트가 모든 오케스트레이션 (orchestration) 코드를 작성하고 내부의 모든 것을 구동했습니다. 이미지 생성은 에이전트가 호출한 수많은 도구 중 하나일 뿐이었습니다. 제가 경험한 것은 처음부터 끝까지 LLM-에이전트 (LLM-agent) 경험이었습니다.

모든 미디어 생성은 GB10 DGX Spark (aarch64)에서 로컬로 실행되었으며, 오직 오픈 모델 (open models)만을 사용했습니다:

스틸 이미지 (Stills): Qwen-Image-Edit-2511
애니메이션 (Animation): Wan 2.2 I2V, 첫 번째/마지막 프레임 체이닝 (first/last-frame chaining)
음악 (Music): ACE-Step
음성 (Voice): Chatterbox, 제가 스크립트 첫 부분을 읽은 약 60초 분량의 음성을 클로닝 (cloned)
QA: Whisper-large-v3-turbo
LLM: Qwen 35b a3b, 처음에는 fp8을 사용한 후 NVIDIA의 nvfp4로 전환하여 메모리 사용량 0.5 유지

클로닝된 음성이 구절을 계속 반복할 때, 저는 단순히 "이런 일이 다시 발생하지 않도록 검증할 방법을 찾아야 합니다"라고 말했습니다. 에이전트는 문제를 조사하여 Whisper로 각 라인을 다시 전사 (transcribing)하는 방식에 도달했고, 반복 감지 및 재시도 (repetition-detect-and-re-roll) 루프 전체를 스스로 구축했습니다. 그런 다음 에이전트는 동일한 아이디어를 모든 곳에 재사용했습니다. 모든 TTS 라인은 Whisper로 다시 전사되어 반복/환각 (hallucination) 여부를 확인하며, 깨끗해질 때까지 새로운 시드 (seed)로 재시도됩니다. Whisper의 단어 타임스탬프 (word timestamps)는 두 문장이 호흡 없이 이어지는 부분에만 일시 정지 삽입을 유도합니다.

시각적인 측면에서는 에이전트가 자신의 출력을 스스로 검토합니다. 각 스틸 이미지를 열고, 렌더링된 클립에서 프레임을 추출하여, 계획과 대조한 뒤, 엉망이거나 계획에서 벗어난 것들을 다시 생성합니다. 이미지 및 비디오 모델은 끊임없이 경로를 이탈하기 때문에, 루프 내에 시각 능력을 갖춘 모델 (vision-capable model)이 반드시 필요합니다. 그렇지 않으면 파이프라인 (pipeline)은 깨진 프레임을 조용히 배포하게 됩니다.

많은 "발음 (pronunciation)" 문제는 사실 텍스트 정규화 (text normalization) 문제로 밝혀졌습니다. 예를 들어, Chatterbox가 처리하지 못하는 긴 복합어에서 하이픈을 제거하거나, 약어 뒤에 삼켜버린 마침표를 수정하는 등의 작업들 말입니다. 전체 편집 과정은 에이전트가 코드로 작성한 ffmpeg를 통해 이루어집니다. 음성에 맞춰 단어가 불이 들어오는 키네틱 자막 (kinetic captions), 흐르는 숫자 카운터, 애니메이션 차트, 느린 줌 (slow zooms), 오디오 믹싱 (audio mux) 및 라우드니스 마스터링 (loudness master)까지, 이 모든 것이 제 노트북에서 실행되는 생성된 ffmpeg 필터그래프 (filtergraphs)입니다. 수치로 보면, 한 번의 전체 패스 (생성, 검증, 렌더링)에 에이전트는 약 8시간이 소요됩니다. 현재 5번째 패스 진행 중입니다. 그리고 제 개입의 약 80%는 외출 중에 휴대폰으로 메모를 보내는 방식이었습니다. Spark 상의 Aarch64 환경은 그 자체로 하나의 모험이었습니다 (해당 칩을 위한 torch 빌드가 몇 개 존재하지 않고, 일반적인 의존성 (deps)의 절반이 컴파일을 거부하여, 설치를 위해 텍스트 정규화 라이브러리를 교체하고 TTS 프론트엔드를 패치해야만 했습니다). 이 프로젝트의 기반이 된 글은 llmrequirements.com/state-of-local-ai 에서 확인할 수 있습니다. 관심 있는 분들께 더 자세한 기술적 세부 정보를 제공할 수 있습니다. /u/totosse17 제출 [링크] [댓글]

AI 자동 생성 콘텐츠

원문 바로가기