video-use: Claude Code를 활용한 100% 오픈 소스 비디오 편집 도구

요약

Claude Code를 활용하여 비디오를 편집할 수 있는 100% 오픈 소스 도구인 video-use를 소개합니다. 채팅만으로 불필요한 단어 제거, 컬러 그레이딩, 자막 삽입, 애니메이션 생성 등 복잡한 편집 과정을 자동화할 수 있습니다.

핵심 포인트

Claude Code와 채팅을 통한 자연어 기반 비디오 편집
무음 구간 제거, 자동 컬러 그레이딩 및 오디오 페이드 적용
Remotion, Manim 등을 활용한 애니메이션 오버레이 생성
세션 메모리 유지를 통한 연속적인 편집 작업 지원
ElevenLabs API를 활용한 고품질 오디오 처리 가능

video-use를 소개합니다 — Claude Code로 비디오를 편집하세요. 100% 오픈 소스(open source)입니다.

폴더에 원본 푸티지(raw footage)를 넣고, Claude Code와 채팅하면 final.mp4가 돌아옵니다.

사전 설정(presets)이나 메뉴 없이도 토킹 헤드(talking heads), 몽타주(montages), 튜토리얼(tutorials), 여행(travel), 인터뷰(interviews) 등 모든 콘텐츠에 작동합니다.

불필요한 단어 제거(umm, uh, 잘못된 시작 등) 및 테이크 사이의 무음 구간 제거
모든 세그먼트 자동 컬러 그레이딩 (Auto color grades) (따뜻한 시네마틱, 중립적인 펀치, 또는 임의의 커스텀 ffmpeg 체인)
모든 컷에서 30ms 오디오 페이드 (audio fades) 적용하여 팝 노이즈가 들리지 않도록 처리
자막 삽입 (Burns subtitles) — 기본적으로 2단어 대문자(UPPERCASE) 덩어리 형태이며, 완전한 커스터마이징 가능
애니메이션 오버레이 생성 (Generates animation overlays) — HyperFrames, Remotion, Manim 또는 PIL을 통해 생성되며, 각 애니메이션당 하나의 병렬 서브 에이전트(sub-agents)가 할당됨
렌더링된 출력물 자체 평가 (Self-evaluates the rendered output) — 사용자에게 보여주기 전 모든 컷 경계에서 수행
세션 메모리 유지 (Persists session memory) — project.md에 저장되어 다음 주 세션에서 중단된 지점부터 다시 시작 가능

Claude Code, Codex, Hermes, Openclaw 또는 셸(shell) 액세스 권한이 있는 모든 에이전트에 다음을 붙여넣으세요:

Set up https://github.com/browser-use/video-use for me.
Read install.md first to install this repo, wire up ffmpeg, register the skill with whichever agent you're running under, and set up the ElevenLabs API key — ask me to paste it when you need it. Then read SKILL.md for daily usage, and always read helpers/ because that's where the editing scripts live. After install, don't transcribe anything on your own — just tell me it's ready and wait for me to drop footage into a folder.

에이전트가 클론(clone), 종속성(dependencies), 스킬 등록(skill registration)을 처리하며, ElevenLabs API 키(elevenlabs.io/app/settings/api-keys에서 발급 가능)를 한 번 요청합니다.

그 다음, 에이전트가 원본 테이크가 담긴 폴더를 가리키게 하세요:

cd /path/to/your/videos
claude # 또는 codex, hermes 등

자신의 VPS 또는 Telegram에서 상시 편집을 수행하려면 Browser Use Box를 통해 에이전트를 실행하세요. 15초짜리 데모를 시청해 보세요.

그리고 세션에서:

edit these into a launch video

소스들을 인벤토리화하고, 전략을 제안하며, 사용자의 승인을 기다린 다음, 소스 파일 옆에 edit/final.mp4를 생성합니다. 모든 출력물은 <videos_dir>/edit/에 저장됩니다.

— 따라서 스킬 (skill) 디렉토리는 깨끗하게 유지됩니다.

직접 수동으로 수행하고 싶다면:

# 1. 클론(Clone)하여 에이전트의 스킬 디렉토리에 심볼릭 링크(symlink) 생성
git clone https://github.com/browser-use/video-use ~/Developer/video-use
ln -sfn ~/Developer/video-use ~/.claude/skills/video-use # Claude Code
...

LLM은 비디오를 절대 시청하지 않습니다. 대신 두 개의 레이어를 통해 비디오를 읽습니다 (reads). 이 두 레이어는 단어 경계 단위의 정밀도로 편집하는 데 필요한 모든 정보를 제공합니다.

레이어 1 — 오디오 전사 (Audio transcript) (항상 로드됨). 소스당 한 번의 ElevenLabs Scribe 호출을 통해 단어 단위의 타임스탬프 (timestamps), 화자 분리 (speaker diarization), 그리고 오디오 이벤트 ((laughter), (applause), (sigh))를 제공합니다. 모든 데이터는 LLM의 주요 읽기 뷰인 약 12KB 크기의 단일 takes_packed.md 파일로 압축됩니다.

## C0103 (duration: 43.0s, 8 phrases)
[002.52-005.36] S0 웹 에이전트가 하는 일의 90%는 완전히 낭비됩니다.
[006.08-006.74] S0 우리는 이를 해결했습니다.

레이어 2 — 시각적 합성 (Visual composite) (요청 시). timeline_view는 임의의 시간 범위에 대해 필름스트립 (filmstrip) + 파형 (waveform) + 단어 라벨이 포함된 PNG를 생성합니다. 이는 모호한 일시 정지, 재촬영 비교, 컷 지점의 무결성 확인과 같은 결정 지점에서만 호출됩니다.

단순한 접근 방식: 30,000 프레임 × 1,500 토큰 = 4,500만 토큰의 노이즈.
Video Use: 12KB의 텍스트 + 소수의 PNG 파일.

이는 browser-use가 LLM에게 스크린샷 대신 구조화된 DOM을 제공하는 것과 같은 개념이지만, 비디오를 대상으로 합니다.

전사 (Transcribe) ──> 압축 (Pack) ──> LLM 추론 (LLM Reasons) ──> EDL ──> 렌더링 (Render) ──> 자기 평가 (Self-Eval)
│
└─ 문제 발생 시? 수정 + 재렌더링 (최대 3회)

자기 평가 (self-eval) 루프는 모든 컷 경계에서 렌더링된 출력물에 대해 timeline_view를 실행하여 시각적 점프, 오디오 팝 (audio pops), 숨겨진 자막 등을 잡아냅니다. 사용자는 검증을 통과한 후에만 프리뷰를 볼 수 있습니다.

텍스트 + 온디맨드 비주얼 (on-demand visuals). 프레임 덤핑 (frame-dumping)은 없습니다. 스크립트 (transcript)가 표면입니다. 오디오가 우선이며, 비주얼은 그 뒤를 따릅니다. 컷 (cuts)은 음성 경계와 무음 구간 (silence gaps)에서 발생합니다. 질문 → 확인 → 실행 → 자기 평가 (self-eval) → 지속 (persist). 전략적 승인 없이 컷을 절대 건드리지 마십시오. 콘텐츠 유형에 대해 어떠한 가정도 하지 마십시오. 보고, 질문하고, 그 다음에 편집하십시오. 12가지 엄격한 규칙이 있으며, 그 외의 부분에서는 예술적 자유가 허용됩니다. 제작의 정확성 (Production-correctness)은 타협할 수 없는 사항입니다. 취향 (Taste)은 타협할 수 있습니다.

전체 제작 규칙과 편집 기술에 대해서는 SKILL.md를 참조하십시오.

AI 자동 생성 콘텐츠

원문 바로가기

video-use: Claude Code를 활용한 100% 오픈 소스 비디오 편집 도구

요약

핵심 포인트

댓글