모두가 '에이전트 스웜 (agent swarms)'을 출시하고 있지만, 여기 실제로 실질적인 업무를 수행하는 에이전트가 있습니다
요약
video-use는 영상을 직접 보는 대신 텍스트 전사본을 활용하여 효율적으로 편집하는 에이전트입니다. 텍พย์ 기반의 정밀한 컷 편집과 자동 컬러 그레이딩, 자막 생성 등 실질적인 영상 제작 업무를 수행합니다.
핵심 포인트
- 영상을 텍스트로 변환하여 토큰 소모를 획기적으로 절감
- 단어 단위 타임스탬프를 활용한 정밀한 컷 편집 구현
- 무음 구간 제거, 컬러 그레이딩, 자막 생성 등 전문 편집 기능 제공
- 단순 역할극이 아닌 명확한 업무를 완수하는 실용적 에이전트 모델
모두가 "에이전트 스웜 (agent swarms)"을 출시하고 있습니다
- 여기 실제로 실질적인 업무를 수행하는 에이전트가 하나 있습니다
video-use - 14k★, MIT, browser-use 팀 제작
폴더에 원본 푸티지 (raw footage)를 넣고, Claude에게 "이것들을 런칭 영상으로 편집해줘"라고 말하면 최종 결과물인 final.mp4를 돌려받습니다 →
이것을 가능하게 하는 비결: 모델은 영상을 절대 '보는' 것이 아니라 '읽습니다'
→ 한 번의 전사 (transcription) 과정을 통해 모든 테이크 (take)를 단어 단위 타임스탬프가 포함된 약 12kb의 텍스트로 변환합니다
→ 따라서 대략적인 프레임 추측이 아니라, 정확한 단어 단위로 컷 편집을 수행합니다
→ 실제로 무언가를 봐야 할 때만 필름스트립 (filmstrip) PNG를 렌더링합니다
이것이 중요한 이유:
→ 단순한 방식으로 30,000개의 프레임을 보는 것 = 약 4,500만 개의 노이즈 토큰 (tokens)
→ 전사본을 읽는 것 = 12kb + 몇 개의 PNG
→ LLM에게 스크린샷 대신 DOM을 제공하는 것과 같은 개념입니다 - 다만 비디오의 경우입니다
그리고 단순히 컷 편집만 하는 것이 아닙:
→ 추임새와 무음 구간 (umm, uh, 잘못 시작한 부분)을 제거합니다
→ 자동 컬러 그레이딩 (color grades)을 수행하고, 컷이 튀지 않도록 30ms 페이드 (fades)를 추가합니다
→ 자막을 입히고, 애니메이션 오버레이마다 서브 에이전트 (sub-agent)를 생성합니다
→ 사용자에게 프리뷰를 보여주기 전에 모든 컷을 스스로 점검합니다
이것이 바로 유용한 에이전트의 형태입니다 - 픽셀 사무실에서 역할극을 하는 10개의 에이전트가 아니라, 좁고 명확한 업무를 프로덕션 품질 (production quality)로 완수하는 에이전트 말입니다.
저장해 두세요
AI 자동 생성 콘텐츠
본 콘텐츠는 X @seelffff (오픈소스/자동화)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기