arXiv논문2026. 06. 16. 22:53

노이즈 증폭을 통한 아티팩트(Artifacts)의 규명: AI 생성 비디오 탐지를 위한 새로운 관점

요약

텍스트-비디오 모델이 생성한 비디오를 탐지하기 위해 노이즈 증폭(Noise Amplification) 기법을 제안합니다. 비트 평면을 활용해 노이즈를 추출하고 증폭하여 위조 여부를 판별하며, 새로운 벤치마크인 HardGVD를 통해 성능을 입증했습니다.

핵심 포인트

비트 평면 기반의 노이즈 추출 및 증폭 방식 제안
픽셀, 영역, 프레임 수준의 통합적 노이즈 증폭 메커니즘
기존 최첨단 탐지 방법론을 능가하는 성능 확인
AI 생성 비디오 평가를 위한 HardGVD 벤치마크 도입

비디오 생성 모델의 급격한 발전과 함께, AI가 생성한 비디오와 실제 비디오를 구분하는 것이 어려운 과제로 떠올랐습니다. 기존 연구의 대부분은 생성적 적대 신경망 (GAN)에 의해 생성된 샘플을 식별하기 위한 탐지기 개발에 집중하고 있습니다. 그럼에도 불구하고, AI 생성 비디오, 특히 텍스트-비디오 (text-to-video) 모델에 의해 생성된 비디오의 탐지는 여전히 미개척 영역으로 남아 있습니다. 최첨단 텍스트-비디오 모델들은 실제 비디오와 유사한 사실적인 시각적 콘텐츠를 생성할 수 있지만, 이미지의 세부 사항이나 비디오 내 세부 사항의 변화를 생성하는 데에는 미흡합니다. 이에 영감을 받아, 우리는 이미지나 비디오의 세부 사항 또는 노이즈를 효과적으로 설명할 수 있는 비트 평면 (bit-planes)이라는 새로운 관점에서 AI 생성 비디오 탐지를 다룹니다. 이를 위해, 우리는 노이즈 증폭 (Noise Amplification)이라 불리는 단순하면서도 효과적인 접근 방식을 제안합니다. 이 접근 방식은 먼저 비트 평면을 기반으로 노이즈 신호를 추출한 다음, 이 노이즈 신호를 증폭하고, 마지막으로 이를 판별기 네트워크 (discriminator networks)에 입력하여 비디오의 위조 여부를 분류합니다. 노이즈 증폭은 픽셀 수준의 강도 강화 (pixel-level intensity enhancement), 영역 수준의 공간적 증폭 (region-level spatial amplification), 그리고 프레임 수준의 시간적 집계 (frame-level temporal aggregation)라는 세 가지 측면을 통합하여 포괄적으로 구성됩니다. 도전적인 시나리오에서 AI 생성 비디오 탐지 방법들을 평가하기 위해, 우리는 HardGVD라는 벤치마크도 도입합니다. 대규모 데이터셋인 GenVidBench와 HardGVD 모두에 대한 광범위한 실험 결과, 우리의 단순한 접근 방식이 최첨단 방법들을 유의미하게 능가함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

노이즈 증폭을 통한 아티팩트(Artifacts)의 규명: AI 생성 비디오 탐지를 위한 새로운 관점

요약

핵심 포인트

댓글