LTX 2.3 LoRA 로더 오디오/비주얼 분리기
요약
LTX 2.3 LoRA 로더는 오디오-비주얼 모델인 LTX-2.3의 강력한 기능을 확장하는 도구입니다. 이 로더는 비디오 생성과 오디오 생성을 담당하는 두 개의 독립적인 가지(비디오 가지, 오디오 가지)를 분리하여 각 LoRA가 시각적 요소와 청각적 요소에 미치는 영향을 개별적으로 스케일링할 수 있게 합니다. 이를 통해 사용자는 특정 로라를 비디오 전용 또는 오디오 전용으로 제어하며, 보다 정교하고 세밀한 콘텐츠 생성이 가능해집니다.
핵심 포인트
- LTX-2.3은 단일 트랜스포머에서 비디오와 오디오를 동시에 생성하는 오디오-비주얼 모델입니다.
- 새로운 LoRA 로더는 가중치를 시각적 가지(V×)와 청각적 가지(A×)로 분리하여 적용할 수 있게 합니다.
- 사용자는 각 LoRA의 기여도를 비디오 또는 오디오 중 하나에만 독립적으로 스케일링하여 제어할 수 있습니다.
- 이 컨트롤은 로라가 추가하는 '기여도'를 제어하며, 기본 LTX-2.3 모델 자체의 출력 생성 능력에는 영향을 미치지 않습니다.
이전 게시물에 대해 사과드립니다. 먼저 테스트를 해보아야 했어야 했는데! 도아! - 저는 문제가 있어 재개하는 데 약 2 시간이 걸리니 (55k 단계) 로라 학습을 멈추고 싶지 않아서 그랬습니다. - 제 잘못입니다. 다시는 안 할게요.
비디오 분해
- 처음 몇 초, 기본값. str 1.0 비디오 1.0 오디오 1.0
- 수요일 다른 목소리 Str 1.0 비디오 1.0 오디오 0.0
- 금발 수요일 Str 1.0 비디오 0.0 오디오 1.0
작동 방식
LTX-2.3 은 오디오-비주얼 모델입니다. 단일 트랜스포머에서 동시적으로 비디오와 오디오를 생성합니다. 해당 트랜스포머 내부에서는 가중치가 완전히 분리된 두 가지 가지(branch)로 나뉩니다: 시각적 생성을 담당하는 비디오 가지 (attn1, attn2, ff) 와 소리를 담당하는 오디오 가지 (audio_attn1, audio_attn2, audio_ff).
LoRA 를 로드할 때 기본적으로 두 가지 가지 모두 함께 적용됩니다. 이 노드는 각 LoRA 를 로드한 후 가중치를 분리하여 적용하게 하여 각 가지를 독립적으로 스케일링할 수 있게 합니다.
STR 은 마스터 강도(master strength)로, 일반적인 로라 로더와 정확히 동일하게 작동합니다.
V× 는 비디오 가지 가중치에만 곱해집니다. 0.0 으로 설정하면 LoRA 가 시각적으로 아무것도 기여하지 않습니다.
A× 는 오디오 가지 가중치에만 곱해집니다. 0.0 으로 설정하면 LoRA 가 오디오에 아무것도 기여하지 않습니다.
키 카운트 표시 (V:1152 A:2112) 는 로드할 때 각 LoRA 를 스캔하여 오디오 가지를 사용할 가치가 있는지 미리 알 수 있게 합니다. 침묵하는 푸티지에 대해 훈련된 LoRA 는 A:0 을 표시하며 오디오 컨트롤은 아무것도 하지 않습니다.
중요: 이 컨트롤은 LoRA 의 기여도를 제어할 뿐, 기본 모델의 출력을 제어하는 것은 아닙니다. 기본 LTX-2.3 모델은 자체적으로 오디오를 생성합니다. 이 노드는 각 LoRA 가 그 위에 추가하는 것을 제어할 뿐입니다.
Lora loader — 링크 <
더 많은 정보와 이미지는 링크에서 확인하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기