Claude Code와 오픈 소스 도구를 사용하여 무료로 영상을 편집하는 방법

저는 영상을 편집하여 10분도 채 되지 않아 YouTube에 게시했습니다.
저는 1인 기업가(solopreneur)이며 영상 편집에 대해서는 전혀 모릅니다.
사실, 사업을 운영하면서 YouTube를 병행하는 것이 너무 벅차서 한때 YouTube를 포기한 적도 있습니다.
그래서 다시 한번 도전해보고 싶었고, 이를 위해 업무를 더 쉽게 만들기 위해 가능한 한 AI를 많이 활용하고 싶었습니다.
저는 주로 제 YouTube 채널을 위해 이 일을 시작했습니다.
저의 전체 영상 편집 설정은 폴더 하나, GitHub 리포지토리(repo) 하나, OpenAI Whisper, 그리고 터미널(terminal) 내의 Claude code로 구성됩니다.
원본 녹화부터 YouTube 업로드까지 10분이 걸렸습니다. 제가 정확히 어떻게 했는지 알려드리겠습니다.

녹화 (Record)
저는 영상을 녹화하기 위해 무료 오픈 소스 소프트웨어인 OBS Studio를 사용했습니다.
이 소프트웨어는 사용법이 매우 간단합니다. 최근에는 시청 지속 시간(retention)을 높이기 위해 canvid를 사용하는 것으로 전환했습니다.
그런 다음 MP4로 내보냅니다. 이것이 캡처 단계의 전부입니다.
저는 재촬영(takes)에 신경 쓰지 않습니다.
그냥 말합니다. 재촬영, '음', 더듬거림, 정적(dead air)까지도요.
저는 이 모든 것을 그대로 남겨두며, 파이프라인(pipeline)이 나중에 이를 처리합니다.
https://preview.redd.it/ielar57ero6h1.png?width=679&format=png&auto=webp&s=63eddc259f185b1da51bd33303fc20c4a22d1526
폴더 설정 (Set up the folder) (1회 수행)
데스크톱에 새 폴더를 생성합니다.
그런 다음 터미널(terminal)에서 Claude code를 엽니다 - 최대 노력을 기울인 Opus 4.8 버전입니다.
또한 cowork를 열고 이 프롬프트(prompt)를 단순히 붙여넣을 수도 있습니다.

"이봐, 나는 기본적으로 나의 영상 편집 스튜디오가 될 프로젝트를 시작하려고 해. 그래서 네가 이 GitHub 리포지토리(repository)를 살펴보고, 여기서 네가 필요한 기술과 중요한 정보를 가져왔으면 좋겠어. 그러면 내가 기본적으로 원본 영상 파일을 주었을 때, 네가 그것을 편집하고, 채움말(filler words)을 제거하고, 반복되는 부분을 제거하고, 모션 그래픽(motion graphics)을 추가할 수 있도록 말이야. 기본적으로 전체 파이프라인(pipeline)을 말이야."

→ video-use (browser-use/video-use) - 영상 편집을 도와주는 오픈 소스 소프트웨어
Claude가 저장소(repository)를 읽고, 기술(skills)을 등록하며, 환경(env.) 설정을 일회성으로 완료합니다.
그 후 기본적으로 Eleven Labs API 키를 요청할 것입니다. 하지만 저는 로컬에서 실행할 수 있기 때문에 OpenAI Whisper를 선택했습니다.
만약 OpenAI Whisper로 교체하고 싶다면, 다음과 같이 언급하세요:

"Replace Elevenlabs with OpenAI whisper and make it compatible with that for all future operations."

그게 전부입니다. 설정이 완료되었습니다. 이 프롬프트들을 다시 실행할 필요는 없습니다.

원본 mp4 파일 넣기
Canvid 또는 OBS Studio에서 내보낸 파일을 폴더에 드래그합니다. 그런 다음 다음과 같이 프롬프트를 입력합니다:

"video.mp4 - use video-use to edit this. analyze it, remove any filler words, unnecessary silences, retakes. task is to edit out the mistakes and filler words. Do cuts where the silence is useless though there's user activity and can be trimmed off"

내부적으로 일어나는 일:
OpenAI의 Whisper(API를 통해 접근할 경우 오픈 소스 모델, 분당 $0.006)가 단어 단위 타임스탬프(word-level timestamps)와 함께 전사(transcribe)합니다. video-use는 LLM이 과부하 없이 읽을 수 있도록 전사 내용을 약 12KB로 압축합니다. 그 후 컷(cut) 지점을 선택합니다. ffmpeg가 렌더링(render)을 수행합니다.
모든 컷은 음절 중간이 아닌 단어 경계에 맞춰지며, 절대 음절 중간에서 잘리지 않습니다. 그 다음, 스스로 결과물을 자기 평가(self-evaluates)하고 페이싱(pacing)이 맞지 않으면 최대 3회까지 다시 컷을 조정합니다.
결과물로 완성된 mp4 파일과 다음번에 제가 요청했던 내용을 기억하는 프로젝트 md 파일이 생성됩니다.

더듬거림 처리(The stammer pass)
Whisper는 때때로 길게 늘어지거나 더듬거리는 단어를 하나의 비정상적으로 긴 토큰(token)으로 병합하곤 합니다.
video-use는 이를 포착합니다. JSON에서 1초보다 긴 단어는 모두 더듬거림 플래그(stammer flag)로 간주됩니다. 하지만 저는 명시적으로 다음과 같이 요청합니다:

"In some places i stammer some words then respeak the correct words after - remove the stammer or incorrect parts where i spoke and trim those out. Can you get me all those places?"

그러면 목록을 나열해 줍니다. 제가 확인하면 컷 편집이 진행됩니다. 더 깔끔한 mp4 파일이 나옵니다.

업로드
YouTube Studio로 드래그 앤 드롭합니다. 제목, 설명, 썸네일을 설정하고 게시합니다.

저는 한 걸음 더 나아가 Claude에게 자막 파일, 타임스탬프(timestamps), 그리고 최적화된 영상 설명(video description)까지 가져다 달라고 요청합니다.

이 설정의 실제 차이점은 무엇일까요?
Premiere도, Resolve도, Capcut도 없습니다.
전체 스택(stack)이 오픈 소스(open source)입니다.
Claude Code가 제가 상호작용하는 유일한 UI입니다.
평범한 영어(Plain English)를 입력하면, mp4가 나옵니다.
──────────────────────────
이 스택이 1년 뒤에 당연해 보일지, 아니면 영원히 이상해 보일지는 잘 모르겠습니다. 아마 둘 다일 것입니다.

제출자: /u/gouterz
[link] [comments]

Insights

Claude Code와 오픈 소스 도구를 사용하여 무료로 영상을 편집하는 방법

요약

핵심 포인트

댓글

당과 함께하는 (跟党走) Skill

Windows Hello를 지원하지 않는 컴퓨터에서도 얼굴 인식 잠금 해제 가능: 화면 잠금 후 카메라를 바라보기만 하면 시스템 접속, 로컬

LoongArch LSX 최적화 및 Use-After-Free 수정 사항을 포함한 zlib-rs 0.6.7 출시

BofA, 실적 발표를 앞두고 모니터링 플랫폼을 최고의 소프트웨어 종목으로 선정

Windows Hello를 지원하지 않는 컴퓨터에서도 얼굴 인식 잠금 해제 가능: 화면 잠금 후 카메라를 바라보기만 하면 시스템 접속, 로컬

LoongArch LSX 최적화 및 Use-After-Free 수정 사항을 포함한 zlib-rs 0.6.7 출시

BofA, 실적 발표를 앞두고 모니터링 플랫폼을 최고의 소프트웨어 종목으로 선정