Reddit요약2026. 06. 23. 17:23

M1 Max 컴퓨터와 로컬 ML 모델(전사(Transcription)를 위한 Whisper)을 사용하여 669GB의 GoPro 영상을

요약

M1 Max 환경에서 OpenAI Whisper, Qwen2.5-VL 등 오픈 소스 ML 모델을 활용해 669GB 분량의 GoPro 영상을 로컬로 인덱싱하는 프로젝트를 소개합니다. 영상 내 특정 순간을 검색하고 DaVinci Resolve로 바로 보낼 수 있는 워크플로우를 구축했습니다.

핵심 포인트

M1 Max 로컬 환경에서 대규모 영상 데이터 인덱싱 구현
OpenAI Whisper를 활용한 영상 전사(Transcription) 수행
Qwen2.5-VL 및 DeepFace를 이용한 장면 및 얼굴 인식
검색된 클립을 DaVinci Resolve 타임라인으로 자동 전송

요약(TLDR): 저는 2,207개의 GoPro 영상이 있었고, 사이클링 여정 중 흥미로운 순간들을 찾기 위해 영상을 다시 시청해야 했습니다. 저는 오픈 소스 ML 모델을 사용하여 M1 Max에서 로컬로 이 영상들을 인덱싱하고, 해당 순간들을 검색하여 가장 좋은 클립들을 DaVinci Resolve 타임라인으로 바로 보낼 수 있는 프로젝트를 구축했습니다. 저는 628개의 영상(668.68 GB, 15시간 13분 18초 분량의 푸티지)을 인덱싱했습니다.

오픈 소스 모델들이 점점 좋아지고 있으며, 이를 통해 좋은 결과를 얻을 수 있기 때문에 로컬 ML 모델을 사용하고 있습니다:
전사 (Transcription): OpenAI Whisper 모델
얼굴 인식 (Face recognition): RetinaFace를 얼굴 탐지기(face detector)로, VGG-Face를 인식 모델(recognition model)로 사용하는 https://github.com/serengil/deepface
장면 설명 (Scene description): Qwen2.5-VL
화면 텍스트 (On-screen text): easyocr

그리고 사용 가능한 소스 버전이 있습니다: https://github.com/iliashad/edit-mind
전체 기사: https://iliashaddad.com/blog/i-indexed-669-gb-of-my-gopro-videos-using-my-m1-max-computer
/u/IliasHad 님이 r/OpenAI 에 게시함
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

M1 Max 컴퓨터와 로컬 ML 모델(전사(Transcription)를 위한 Whisper)을 사용하여 669GB의 GoPro 영상을

요약

핵심 포인트

댓글