M1 Max 컴퓨터와 로컬 ML 모델로 669GB GoPro 영상을 인덱싱함

요약

M1 Max와 로컬 LLM을 활용하여 대용량 영상 데이터를 인덱싱하고 메타데이터를 생성하는 프로젝트 사례를 다룹니다. RAG와 에이전트 기술을 결합하여 영상 장면을 검색하고, DaVinci Resolve API를 통해 자동으로 영상 클립을 편집하는 워크플로우를 설명합니다.

핵심 포인트

로컬 LLM과 RAG를 활용한 개인 미디어 데이터의 자동 색인 및 태깅
Ollama 모델과 벡터 데이터베이스를 이용한 멀티모달 검색 구현
에이전트가 검색 결과를 바탕으로 DaVinci Resolve API를 호출하여 영상 편집 수행
대용량 영상 처리를 위한 프레임 샘플링 및 해상도 최적화의 중요성

글이 첫 페이지에 있었을 때 댓글에서 내 프로젝트가 언급돼서 확인해봤음
글과 프로젝트 모두 좋았고, 로컬 모델은 점점 더 좋아지고 있음

이런 작업은 로컬 LLM으로 하게 될 것 같음
빠르고 작고 강력한 LLM을 로컬에서 돌려서 이미지, 영상, 문서 같은 개인 데이터를 색인하고, 보강하고, 보강된 메타데이터로 태그를 붙이는 식임
사람별로 묶고 싶으면 태그된 메타데이터를 검색해서 그룹화하고, 설명으로 이미지를 찾고 싶어도 태그된 메타데이터를 쓰고, 무엇이든 정리하고 싶으면 태그된 메타데이터를 쓰면 됨
이게 파일 정리 난장판을 끝내주길 기대함

“프레임 분석 파이프라인을 실행하면 영상을 별도 장면으로 나눈다(각 1초 또는 1fps)”와 “분석한 프레임 57,537개”를 보니 납득됨
이 숫자가 “669GB”보다 훨씬 현실적으로 들리고, 실제 처리된 프레임 전체 크기는 10~30GB 정도였을 것 같음
집에서 직접 하려면 항상 실용성 계산이 필요하다는 뜻이지, 작업을 깎아내리려는 건 아님
“총 계산 시간 67시간 40분 42초”라면, 이런 과정을 빠르게 할 수 있는 유료 옵션이 있는지도 궁금함. 그냥 GPU 인스턴스를 띄우면 되는 건가?

“669GB”는 영상 처리에 사용한 원본 촬영분 전체 크기이고, 처리 속도를 높이려고 각 프레임을 720p로 낮췄음
정확한 결과를 얻는 데 원본 전체 품질이 필요하진 않다고 알고 있고 실험도 그렇게 나왔음
지금까지는 12GB VRAM의 RTX 3060 같은 NVIDIA GPU가 M1 Max보다 훨씬 빨랐고, 아직 속도와 정확도 최적화를 계속하는 중임

예상보다 즐거웠던 기능은 Google Photos와 Apple Photos가 지난 10년 동안의 내 삶과 아이들 삶에서 여러 순간을 추억 사진과 모음으로 보내주는 것이었음
나중에 AI가 보기 좋은 짧은 모음 영상으로 만들어주기 점점 쉬워질 거라 생각해서, 아이들 영상을 더 많이 찍는 쪽에 꽤 낙관적임

Android와 iOS를 둘 다 쓰는 건가, 아니면 개인 미디어를 양쪽에 모두 두는 다른 장점이 있는 건가?

Google이 아이들을 이용해 모델과 광고 알고리즘을 학습시키는 건 괜찮은가?
몇 년 뒤엔 “BIKE BRAND의 최신 저가 자전거를 보세요, 예전에 BIKE BRAND 자전거 탔던 거 기억하시죠” 같은 걸 받게 될 텐데

DaVinci 21에는 AI IntelliSearch라는 색인 기능이 내장돼 있음
작업을 깎아내리려는 건 아니지만, 이제 많은 사용자에게 제공되는 기능임. 이름에 AI가 들어가 있으니 아마 Studio 사용자 전용일 가능성이 큼

그건 아직 살펴보지 않았음
다만 영상을 클라우드에 업로드하는지, 아니면 로컬에서 처리하는지 궁금함
그리고 영상 속 얼굴에 라벨을 붙이는 데 도움이 되도록 사용자 지정 얼굴 데이터를 제공할 수 있는지도 궁금함
Adobe Premiere Pro에도 비슷한 기능이 있는 것 같지만, 클라우드 처리로 알고 있음

잘 만들었음
에이전트를 통해 릴을 어떻게 만드는지는 이해가 잘 안 됐음
이미지 링크를 받아 어떤 영상 편집 도구로 릴을 만드는 AI 도구 호출 같은 건가? 아니면 특정 질의로 색인에서 반환된 타임스탬프 전후 시간을 잘라 이어 붙이는 방식인가?

RAG를 쓰고 있고, 모든 영상 장면을 개별적으로 벡터 데이터베이스에 색인해둠
에이전트에게 요청하면 Ollama 모델이 요청을 이해하고, 사용 가능한 검색 도구를 사용함. 검색은 전사 텍스트, 얼굴, 시각 정보, 오디오 또는 조합으로 할 수 있음
Claude나 ChatGPT가 온라인 정보를 찾기 위해 웹 검색 도구를 쓰는 방식과 비슷함
그런 다음 Ollama로 영상 장면을 걸러 더 정확하고 중복이 적은 장면을 보여주고, 그 결과를 DaVinci Resolve API로 보내 영상 클립들로 타임라인을 만듦

포르노 모음에도 작동하나?

이 용도라면 LoRA가 필요할 것 같음. 포르노 콘텐츠 거부가 강함
아니면 검열 제거 모델이 필요할 텐데, 비전 쪽에도 되는지는 모르겠음
장면 탐지와 얼굴 인식용으로 YOLO 파인튜닝 같은 것도 추가하고 싶을 수 있음

중요한 질문을 하는군

왜 항상 같은 질문이 나오는지 모르겠음
Reddit에 프로젝트를 올렸을 때도 똑같은 질문을 받았음

예전에 Whisper를 써봤을 때, 때리는 소리와 신음만 듣고도 정교한 대화를 환각으로 만들어냈고, 그걸 한 줄씩 뱉어내는 데 몇 분이 걸렸음

비꼬는 건지는 모르겠지만 흥미로운 질문이라고 봄 DeepSeek가 로컬에서 돌아가니까 이런 용도에 유용할까?

여러 이유로 사과와 오렌지 비교에 가깝지만, 가장 영향이 큰 건 두 가지임
“통합” 메모리 덕분에 시스템 메모리 전체를 VRAM처럼 쓸 수 있고, 전용 AI 보조 가속기도 있음
이 두 가지 때문에 Apple Silicon 칩이 이런 AI 모델 작업 부하에서 일반 CPU를 압도할 수 있음
Windows ARM 쪽이 어느 정도 가능한지는 모르겠지만 Qualcomm Snapdragon 칩을 쓴다는 건 알고 있음

비교가 안 됨 M1 Max는 메모리 대역폭이 400GB/s이고, 최신 최상위 Snapdragon X2 Elite도 228GB/s임

“비교 가능”하다는 말은 단일 코어 성능을 말한다면 어느 정도 맞을 수 있지만, 메모리 대역폭에서는 M1 Max가 약 8배 빠름
더 넓은 버스와 더 낮은 지연 시간 때문에 아예 상대가 안 됨

그 질문에 대해서는 부정도 확인도 못 하겠음
아직 이 프로젝트를 Windows 머신이나 그런 구성의 머신에서 시도해보지 않았음

AI 자동 생성 콘텐츠

원문 바로가기