본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 07. 20:04

비디오 생성을 위한 훌륭한 데이터셋 구축하기

요약

본 기술 기사는 비디오 생성 모델을 미세 조정하기 위해 자체 데이터셋을 구축하는 과정을 안내하며, 이를 위한 개발 중인 툴링 파이프라인을 소개합니다. 이 파이프라인은 `yt-dlp`를 이용한 다운로드부터 시작하여, 'Video to Scenes' 스크립트를 통해 긴 비디오를 짧은 클립으로 분할하고, 워터마크 감지(LAION-5B), 미학 점수 예측, NSFW 콘텐츠 검사 등 다단계의 정교한 필터링을 적용합니다. 또한 Florence-2와 같은 모델을 활용하여 캡션, 객체 인식, OCR 등의 메타데이터를 추출함으로써 고품질의 커스텀 비디오 데이터셋 구축 방법을 제시합니다.

핵심 포인트

  • 비디오 생성 데이터셋 구축은 이미지 데이터셋보다 복잡하며, 다단계 파이프라인 접근 방식이 필요하다.
  • 핵심 툴링에는 `yt-dlp`를 이용한 다운로드 및 'Video to Scenes' 스크립트를 통한 클립 분할 과정이 포함된다.
  • 데이터 품질을 높이기 위해 워터마크 감지(`pwatermark`), 미학 점수 예측, NSFW 검사 등 여러 필터를 조합하여 사용해야 한다.
  • Florence-2와 같은 모델을 활용하여 캡션(Caption), 상세 캡션(Detailed Caption), 객체 인식(Object Detection) 및 OCR 정보를 추출할 수 있다.
  • 필터링 전략은 임계값 설정에 신중해야 하며, 모든 프레임이 아닌 특정 시점의 점수나 평균 점수를 사용하는 것이 더 효과적일 수 있다.

(이 글은 hlky 와 Sayak 이 작성했습니다.)

이미지 생성 데이터셋 툴링은 확립되어 있으며, 대규모 데이터셋 준비에 기본 도구로 사용되는 img2dataset 을 비롯해 다양한 커뮤니티 가이드, 스크립트 및 UI 가 소규모 초기화 작업을 보완하고 있습니다.

우리의 야심은 비디오 생성 데이터셋 툴링을 동일하게 확립하는 것이며, 이는 소규모 작업에는 오픈 비디오 데이터셋 스크립트를 만들고 대규모 사용 사례에는 video2dataset 을 활용하는 것입니다.

"더 멀리 본 것은 거인의 어깨 위에 서서 본 것임"

이 글에서는 커뮤니티가 비디오 생성 모델을 미세 조정하기 위해 자체 데이터셋을 구축하는 것을 쉽게 만드는 데 개발 중인 툴링에 대한 개요를 제공합니다. 이미 시작하고 싶지 않다면 코드를 확인하세요.

목차

일반적으로 비디오 생성은 자연어 텍스트 프롬프트 (예: "초록색 잔디 위에 고양이 걷는 것, 리얼리즘 스타일") 에 조건부입니다. 그리고 비디오에는 다음과 같은 제어 및 필터링을 위한 몇 가지 질적 측면이 있습니다:

  • 운동 (Motion)
  • 미학 (Aesthetics)
  • 워터마크 존재 여부
  • NSFW 콘텐츠 존재 여부

비디오 생성 모델은 훈련된 데이터만큼만 좋습니다. 따라서 커레이션 시 이러한 측면이 매우 중요합니다.

우리의 3 단계 파이프라인은 Stable Video Diffusion, LTX-Video 및 그들의 데이터 파이프라인과 같은 작업에서 영감을 받았습니다.

video2dataset 과 마찬가지로 yt-dlp 를 다운로드에 사용합니다.

우리는 긴 비디오를 짧은 클립으로 나누기 위해 Video to Scenes 스크립트를 만듭니다.

  • LAION-5B-WatermarkDetection 로 워터마크 감지
  • improved-aesthetic-predictor 로 미학 점수 예측
  • Falconsai/nsfw_image_detection 로 NSFW 콘텐츠 존재 여부 감지
  • OpenCV 로 운동 점수 예측

Florence-2 microsoft/Florence-2-large 를 사용하여 추출된 프레임에 Florence-2 작업 <CAPTION>, <DETAILED_CAPTION>, <DENSE_REGION_CAPTION><OCR_WITH_REGION> 을 실행합니다. 이는 다양한 방식으로 필터링을 사용할 수 있는 다른 캡션, 객체 인식 및 OCR 을 제공합니다.

이와 관련하여 다른 캡션어를 가져올 수 있습니다. 전체 비디오를 캡션할 수도 있으며 (예: Qwen2.5 와 같은 모델로), 개별 프레임에 캡션하는 대신 할 수 있습니다.

finetrainers/crush-smol-v0 모델의 데이터셋에서 우리는 Qwen2VL 캡션을 선택하고 pwatermark < 0.1aesthetic > 5.5 로 필터링했습니다. 이 매우 엄격한 필터링은 총 1493 개의 비디오 중 47 개만 남겼습니다.

pwatermark 에서의 예제 프레임을 검토해 보겠습니다.

  • 텍스트가 있는 두 개의 경우 점수는 각각 0.69 와 0.61 입니다.
  • "미끄러운 차에 쥐들이 있는 것"은 미끄러져서 0.60 으로 점수가 낮아지고, 이후 0.17 로 떨어집니다.

모든 예제 프레임은 pwatermark < 0.1 로 필터링되었습니다. pwatermark 는 텍스트/워터마크 감지에 효과적이지만 점수는 그것이 텍스트 오버레이인지 아니면 장난감 차의 번호판인지에 대한 지시가 없습니다. 우리의 필터링은 모든 점수가 임계값 아래에 있어야 함을 요구했지만, pwatermark 에는 0.2 - 0.3 의 임계값으로 프레임 평균이 더 효과적인 전략입니다.

미학 점수에서 예제 프레임을 검토해 보겠습니다.

  • 분홍색 성은 처음에 5.5 로 점수가 높고 이후 4.44 로 떨어집니다.
  • 액션 피그저는 미끄러져서 4.99 로 점수가 낮아지고, 이후 4.84 로 떨어집니다.
  • 유리 조각은 4.04 로 낮은 점수를 받습니다.

필터링 과정에서 우리는 모든 점수가 임계값보다 낮아야 한다고 요구했습니다. 이 경우 첫 프레임의 미적 점수 (aesthetic score) 만 사용하는 것이 더 효과적인 전략일 수 있습니다.

finetrainers/crush-smol을 검토하면, 압도되는 많은 객체가 원형 또는 직사각형이며 컬러가 있어 예시 프레임에서 우리가 발견한 것과 유사하다는 것을 알 수 있습니다. 미적 점수는 유용할 수 있지만, > 5.5 와 같은 극단적인 임계값과 함께 사용될 경우 좋은 데이터를 필터링할 가능성이 있는 편향이 있을 수 있습니다. 최소 임계값이 약 4.25 - 4.5 인 경우 더 이상적인 필터로 작용할 수 있습니다.

여기서 우리는 Florence-2 의 캡션과 각 필터에 대한 시각적 예시를 제공합니다.

이미지캡션상세 캡션
미용차와 그 안에 있는 쥐 한 무리.이미지는 배경에 녹색 벽이 있는 도로를 타고 주행하는 후면부에 세 마리 흰색 쥐가 앉아 있는 파란색 미용차를 보여줍니다.
OCR 라벨 포함OCR 및 영역 라벨 포함

우리는 Pika Effects 와 유사한 멋진 비디오 효과를 생성하기 위해 다양한 데이터셋을 도구로 생성했습니다:

이후 우리는 finetrainers 를 사용하여 CogVideoX-5B 모델을 미세 조정했습니다. 아래는 finetrainers/crush-smol-v0 의 예시 출력입니다.

우리는 이 도구가 여러분이 자체 커스텀 애플리케이션을 위해 작은 고품질 비디오 데이터셋을 생성하는 데 도움이 되기를 바랍니다. 우리는 더 유용한 필터를 저장소에 계속 추가할 것이므로, 주목해 주세요. 여러분의 기여도 환영합니다 🤗

이 글에 대한 상세 검토를 위한 Pedro Cuenca 의 고마움을 전합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0