LTXV 2.3을 사용한 인페인팅. 2주간의 R&D 결과입니다.

요약

본 기술 기사는 LTXV 2.3을 활용하여 비디오 인페인팅(inpainting)의 실제 산업 적용 가능성을 탐구한 R&D 결과를 요약합니다. 필자는 TV 광고, 영화 등 미디어 콘텐츠 제작에 필수적인 인페인팅 작업을 위해 여러 워크플로우를 테스트했으나, 현재까지 어떤 방법도 시공간적 일관성(spatiotemporal consistency)과 정밀도가 요구되는 전문적인 작업 환경에서 안정적으로 작동하지 않는다는 결론을 내립니다. 특히 참조 프레임 근처에서의 깜빡거림(flickering) 및 원본 비디오와의 불일치(mismatch) 문제가 지속적으로 발생하며, 현재의 도구들은 현업 워크플로우에 통합하기에는 한계가 명확합니다.

핵심 포인트

LTXV 2.3은 로컬 환경에서 최대 5K 해상도까지 구동 가능하며, 그 결과물 품질은 상용 모델(Seedance 2)에 뒤지지 않는 잠재력을 보여줍니다.
인페인팅을 위한 세 가지 주요 방법론(LoRA 없음, Masked Model 사용, 일반 Inpainting Model 사용)을 테스트했으나, 모두 일관성 문제와 아티팩트 발생 문제를 안고 있습니다.
가장 큰 기술적 난제는 '시공간적 일관성(spatiotemporal consistency)'과 '정확한 시각적 참조'를 결합하는 것입니다. 현재의 방법들은 이 두 가지 요구사항을 동시에 만족시키기 어렵습니다.
현재 워크플로우는 매개변수 조정에 지나치게 의존하여, 일반적인 현업 사용자가 쉽게 따라 할 수 있는 표준화된 작업 흐름(standardized workflow) 구축이 어렵습니다.

안녕하세요!

DOGMA에서 근무하는 디자이너입니다. 저희는 TV 광고, 쇼 및 영화를 위한 AI 작업을 수행합니다. 최근 작업했던 넷플릭스 쇼가 넷플릭스 이탈리아에 공개되었고, 지난달 회사에서 할리우드에서 첫 미팅을 가졌습니다.

저희 업무의 50%는 비디오 인페인팅(inpainting)이며, 넷플릭스를 위한 모든 작업은 인페인팅이었습니다. 그래서 저는 지난 몇 주 동안 LTXV 2.3으로 R&D를 진행하며 이 도구가 영화 산업의 실질적인 필요에 어떻게 도움이 될 수 있는지 알아봤습니다. 저희는 오픈 소스(open-source)가 가지는 사회문화적 중요성을 강력하게 믿습니다.

우선, u/ltx_model님께 감사드립니다. 오픈 소스 비디오 생성 도구 민주화의 주요 주역이 되어주시고 모델에 지속적으로 개선을 더해주신 점에 대해 감사합니다. 놀라운 HDR 로라(lora)는 저희가 이렇게 빨리 기대하지 못했던 것이지만, 계속해서 멋진 작업을 이어가주시길 바랍니다. 테스트 결과, LTXV 2.3 T2V와 I2V는 로컬에서 최대 5K 해상도까지 구동할 수 있으며, 그 결과물은 비공개 모델인 Seedance 2에 전혀 뒤지지 않습니다. 또한 u/Round_Awareness5490님께도 주 모델의 기능을 확장하는 로라를 제작해주신 뛰어난 실험 작업과 노력에 감사드립니다.

여기에 R&D 내용을 요약했습니다 (이탈리아어에서 영어로 번역됨).

---

방법 1 / 인페인팅 LoRA 없음:

Add Guide Multi를 첫 번째 프레임과 마지막 프레임의 두 개의 레퍼런스 프레임을 사용하여 실행하고, 원본 비디오는 VAE Encode에 넣습니다. 그런 다음 수정이 필요한 영역에 LTXV 잠재 마스크(latent mask)를 적용합니다.

문제점: 항상 인페인팅을 위해 여러 가이드 입력(guide inputs)을 사용할 때, 일부 부분이 깜빡거리거나 원본 비디오와 일치하지 않는 문제가 발생합니다. 특히 첫 번째 및 마지막 레퍼런스 프레임 근처의 프레임에서 그렇습니다. 이 방법으로는 Add Guide Multi에 더 많은 항목을 추가하는 것 외에는 레퍼런스 프레임을 제공할 다른 방법이 없습니다. 실제로는 일종의 디노이즈(denoise)와 같습니다. 정밀도가 필요하지 않고 레퍼런스 프레임을 피하고, 오직 프롬프트/로라에만 의존할 수 있다면 매우 잘 작동합니다.

---

방법 2 / 모델 ltx23_inpaint_masked_r2v_rank32_v1_3000steps.safetensors를 사용한 인페인팅:

3000단계 버전이 대부분의 경우 작동하는 유일한 버전인 것 같습니다.

이 모델은 원본 비디오가 오른쪽에, 인페인팅할 부분이 마젠타색으로 표시되고, 왼쪽에 작은 레퍼런스 프레임이 있는 비디오를 입력으로 받도록 훈련되었습니다. 출력으로는 해당 레퍼런스를 사용하여 최종 인페인팅된 비디오를 제공합니다. 참조 없이 전체 비디오와 마스크 영역에 흰색 오버레이가 있는 것을 입력으로 보내도 때때로 작동하기도 합니다 (VACE와 유사).

문제점: 트럼프의 얼굴을 작은 참조 프레임에 넣으면 훌륭하지만, 정확한 것이 필요할 때는 형편없습니다. 왜냐하면 미니 프레임 자체가 200px도 안 되기 때문에 정확한 정보를 포착할 방법이 없기 때문입니다. Add Guide Multi를 추가하는 것은 이를 부분적으로 해결하지만, 그러면 다시 Add Guide Multi 문제로 돌아가게 됩니다. 즉 깜빡거림(flickering)과 무엇보다 참조 프레임 근처에서 원본 비디오와의 불일치(mismatch)가 발생합니다. 보라색 마스크 영역만 포함된 비디오를 입력으로 보내고, 첫 프레임과 마지막 프레임을 원하는 대로 설정하면 종종, 하지만 항상 그런 것은 아닌 경우, 보라색 또는 흰색 아티팩트가 연기나 단색의 형태로 다시 나타나는 비디오가 생성됩니다.

방법 3 / 모델을 사용한 인페인팅(Inpainting)

ltx23_inpaint_rank128_v1_02500steps.safetensors

또는 다음 모델:

ltx23_inpaint_rank128_v1_10000steps.safetensors

실제로 이 모델은 VACE가 했던 방식으로 인페인팅할 영역을 가져갑니다. 여기서 마스크된 영역은 보라색 대신 흰색이어야 하는 것 같습니다. 이 LoRA는 어떤 종류의 참조도 지원하지 않으므로, 프롬프트에만 기반한 인페인팅에 유용합니다. 여기에서도 Add Guide Multi를 사용하여 시작 및 종료 참조 프레임을 사용하도록 강제할 수 있지만, 이전 방법의 모든 문제점과 일관성 문제가 따릅니다.

저는 각 방법에 대해 많은 변형을 시도해 보았습니다. 예를 들어, 첫 프레임과 마지막 프레임을 제외한 모든 프레임에 마스크를 적용한 비디오만 전달하는 것을 시도했습니다. KSampler Advanced를 사용하여 최종 단계 동안에만 디노이즈(denoise)를 적용하는 것도 시도했습니다. CFG를 2.5까지 높이는 것도 시도했습니다. 이 모든 방법들이 때때로 괜찮은 결과를 내기도 하지만, 일관된 결과는 결코 아닙니다. 어제 잘 나온 비디오는 완전한 우연이었습니다. 마스크를 1px만 변경해도 갑자기 무작위로 잘 나올 수 있습니다. 시드(seed)를 바꾸거나 마스크를 1px 변경하면 흰색 또는 보라색 작은 구름들이 다시 나타날 수 있습니다.

게다가, 인페인팅 LoRA의 저자 자신이 프로젝트 페이지에 엄청나게 많은 설명을 추가했는데, 이는 기본적으로 다음과 같은 의미입니다. 매개변수(parameters)를 만지지 않고는 항상 완벽하게 작동하지 않는다는 것입니다. 즉, 사용할 수는 있지만 회사 주니어 직원에게 생산 속도를 높이기 위한 일반적인 워크플로우를 전달하기는 어렵습니다.

제가 찾은 공식적이든 비공식적이든 어떤 워크플로우도 우리가 필요한 정확한 종류의 작업을 수행하지 못합니다. 즉, 깊이/캐니 마스크(depth/canny masks)와 혼합되면서, 오직 하나의 부분만 가져와서 그 부분에 대해 정확한 시각적 참조를 제공하는 무언가로 대체하고, 해상도는 물론 시공간적 일관성(spatiotemporal coherence)까지 원본 입력 비디오와 완벽하게 유지하고 일치시키는 작업입니다.

AI 자동 생성 콘텐츠

원문 바로가기

LTXV 2.3을 사용한 인페인팅. 2주간의 R&D 결과입니다.

요약

핵심 포인트

댓글