HuggingFace헤드라인2026. 05. 07. 20:04

비디오 생성을 위한 훌륭한 데이터셋 구축하기

요약

본 기술 기사는 비디오 생성 모델을 미세 조정하기 위해 자체 데이터셋을 구축하는 과정을 안내하며, 이를 위한 개발 중인 툴링 파이프라인을 소개합니다. 이 파이프라인은 `yt-dlp`를 이용한 다운로드부터 시작하여, 'Video to Scenes' 스크립트를 통해 긴 비디오를 짧은 클립으로 분할하고, 워터마크 감지(LAION-5B), 미학 점수 예측, NSFW 콘텐츠 검사 등 다단계의 정교한 필터링을 적용합니다. 또한 Florence-2와 같은 모델을 활용하여 캡션, 객체 인식, OCR 등의 메타데이터를 추출함으로써 고품질의 커스텀 비디오 데이터셋 구축 방법을 제시합니다.

핵심 포인트

비디오 생성 데이터셋 구축은 이미지 데이터셋보다 복잡하며, 다단계 파이프라인 접근 방식이 필요하다.
핵심 툴링에는 `yt-dlp`를 이용한 다운로드 및 'Video to Scenes' 스크립트를 통한 클립 분할 과정이 포함된다.
데이터 품질을 높이기 위해 워터마크 감지(`pwatermark`), 미학 점수 예측, NSFW 검사 등 여러 필터를 조합하여 사용해야 한다.
Florence-2와 같은 모델을 활용하여 캡션(Caption), 상세 캡션(Detailed Caption), 객체 인식(Object Detection) 및 OCR 정보를 추출할 수 있다.
필터링 전략은 임계값 설정에 신중해야 하며, 모든 프레임이 아닌 특정 시점의 점수나 평균 점수를 사용하는 것이 더 효과적일 수 있다.

(이 글은 hlky 와 Sayak 이 작성했습니다.)

이미지 생성 데이터셋 툴링은 확립되어 있으며, 대규모 데이터셋 준비에 기본 도구로 사용되는 img2dataset 을 비롯해 다양한 커뮤니티 가이드, 스크립트 및 UI 가 소규모 초기화 작업을 보완하고 있습니다.

우리의 야심은 비디오 생성 데이터셋 툴링을 동일하게 확립하는 것이며, 이는 소규모 작업에는 오픈 비디오 데이터셋 스크립트를 만들고 대규모 사용 사례에는 video2dataset 을 활용하는 것입니다.

"더 멀리 본 것은 거인의 어깨 위에 서서 본 것임"

이 글에서는 커뮤니티가 비디오 생성 모델을 미세 조정하기 위해 자체 데이터셋을 구축하는 것을 쉽게 만드는 데 개발 중인 툴링에 대한 개요를 제공합니다. 이미 시작하고 싶지 않다면 코드를 확인하세요.

일반적으로 비디오 생성은 자연어 텍스트 프롬프트 (예: "초록색 잔디 위에 고양이 걷는 것, 리얼리즘 스타일") 에 조건부입니다. 그리고 비디오에는 다음과 같은 제어 및 필터링을 위한 몇 가지 질적 측면이 있습니다:

운동 (Motion)
미학 (Aesthetics)
워터마크 존재 여부
NSFW 콘텐츠 존재 여부

비디오 생성 모델은 훈련된 데이터만큼만 좋습니다. 따라서 커레이션 시 이러한 측면이 매우 중요합니다.

우리의 3 단계 파이프라인은 Stable Video Diffusion, LTX-Video 및 그들의 데이터 파이프라인과 같은 작업에서 영감을 받았습니다.

video2dataset 과 마찬가지로 yt-dlp 를 다운로드에 사용합니다.

우리는 긴 비디오를 짧은 클립으로 나누기 위해 Video to Scenes 스크립트를 만듭니다.

LAION-5B-WatermarkDetection 로 워터마크 감지
improved-aesthetic-predictor 로 미학 점수 예측
Falconsai/nsfw_image_detection 로 NSFW 콘텐츠 존재 여부 감지
OpenCV 로 운동 점수 예측

Florence-2 microsoft/Florence-2-large 를 사용하여 추출된 프레임에 Florence-2 작업 <CAPTION>, <DETAILED_CAPTION>, <DENSE_REGION_CAPTION> 및 <OCR_WITH_REGION> 을 실행합니다. 이는 다양한 방식으로 필터링을 사용할 수 있는 다른 캡션, 객체 인식 및 OCR 을 제공합니다.

이와 관련하여 다른 캡션어를 가져올 수 있습니다. 전체 비디오를 캡션할 수도 있으며 (예: Qwen2.5 와 같은 모델로), 개별 프레임에 캡션하는 대신 할 수 있습니다.

finetrainers/crush-smol-v0 모델의 데이터셋에서 우리는 Qwen2VL 캡션을 선택하고 pwatermark < 0.1 및 aesthetic > 5.5 로 필터링했습니다. 이 매우 엄격한 필터링은 총 1493 개의 비디오 중 47 개만 남겼습니다.

pwatermark 에서의 예제 프레임을 검토해 보겠습니다.

텍스트가 있는 두 개의 경우 점수는 각각 0.69 와 0.61 입니다.
"미끄러운 차에 쥐들이 있는 것"은 미끄러져서 0.60 으로 점수가 낮아지고, 이후 0.17 로 떨어집니다.

모든 예제 프레임은 pwatermark < 0.1 로 필터링되었습니다. pwatermark 는 텍스트/워터마크 감지에 효과적이지만 점수는 그것이 텍스트 오버레이인지 아니면 장난감 차의 번호판인지에 대한 지시가 없습니다. 우리의 필터링은 모든 점수가 임계값 아래에 있어야 함을 요구했지만, pwatermark 에는 0.2 - 0.3 의 임계값으로 프레임 평균이 더 효과적인 전략입니다.

미학 점수에서 예제 프레임을 검토해 보겠습니다.

분홍색 성은 처음에 5.5 로 점수가 높고 이후 4.44 로 떨어집니다.
액션 피그저는 미끄러져서 4.99 로 점수가 낮아지고, 이후 4.84 로 떨어집니다.
유리 조각은 4.04 로 낮은 점수를 받습니다.

필터링 과정에서 우리는 모든 점수가 임계값보다 낮아야 한다고 요구했습니다. 이 경우 첫 프레임의 미적 점수 (aesthetic score) 만 사용하는 것이 더 효과적인 전략일 수 있습니다.

finetrainers/crush-smol을 검토하면, 압도되는 많은 객체가 원형 또는 직사각형이며 컬러가 있어 예시 프레임에서 우리가 발견한 것과 유사하다는 것을 알 수 있습니다. 미적 점수는 유용할 수 있지만, > 5.5 와 같은 극단적인 임계값과 함께 사용될 경우 좋은 데이터를 필터링할 가능성이 있는 편향이 있을 수 있습니다. 최소 임계값이 약 4.25 - 4.5 인 경우 더 이상적인 필터로 작용할 수 있습니다.

여기서 우리는 Florence-2 의 캡션과 각 필터에 대한 시각적 예시를 제공합니다.

이미지	캡션	상세 캡션
미용차와 그 안에 있는 쥐 한 무리.	이미지는 배경에 녹색 벽이 있는 도로를 타고 주행하는 후면부에 세 마리 흰색 쥐가 앉아 있는 파란색 미용차를 보여줍니다.

OCR 라벨 포함	OCR 및 영역 라벨 포함

우리는 Pika Effects 와 유사한 멋진 비디오 효과를 생성하기 위해 다양한 데이터셋을 도구로 생성했습니다:

이후 우리는 finetrainers 를 사용하여 CogVideoX-5B 모델을 미세 조정했습니다. 아래는 finetrainers/crush-smol-v0 의 예시 출력입니다.

우리는 이 도구가 여러분이 자체 커스텀 애플리케이션을 위해 작은 고품질 비디오 데이터셋을 생성하는 데 도움이 되기를 바랍니다. 우리는 더 유용한 필터를 저장소에 계속 추가할 것이므로, 주목해 주세요. 여러분의 기여도 환영합니다 🤗

이 글에 대한 상세 검토를 위한 Pedro Cuenca 의 고마움을 전합니다.

AI 자동 생성 콘텐츠

원문 바로가기

비디오 생성을 위한 훌륭한 데이터셋 구축하기

요약

핵심 포인트

댓글