LTX 2.3 LoRA 로더 오디오/비주얼 분리기

이전 게시물에 대해 사과드립니다. 먼저 테스트를 해보아야 했어야 했는데! 도아! - 저는 문제가 있어 재개하는 데 약 2 시간이 걸리니 (55k 단계) 로라 학습을 멈추고 싶지 않아서 그랬습니다. - 제 잘못입니다. 다시는 안 할게요.

비디오 분해

처음 몇 초, 기본값. str 1.0 비디오 1.0 오디오 1.0
수요일 다른 목소리 Str 1.0 비디오 1.0 오디오 0.0
금발 수요일 Str 1.0 비디오 0.0 오디오 1.0

작동 방식

LTX-2.3 은 오디오-비주얼 모델입니다. 단일 트랜스포머에서 동시적으로 비디오와 오디오를 생성합니다. 해당 트랜스포머 내부에서는 가중치가 완전히 분리된 두 가지 가지(branch)로 나뉩니다: 시각적 생성을 담당하는 비디오 가지 (attn1, attn2, ff) 와 소리를 담당하는 오디오 가지 (audio_attn1, audio_attn2, audio_ff).

LoRA 를 로드할 때 기본적으로 두 가지 가지 모두 함께 적용됩니다. 이 노드는 각 LoRA 를 로드한 후 가중치를 분리하여 적용하게 하여 각 가지를 독립적으로 스케일링할 수 있게 합니다.

STR 은 마스터 강도(master strength)로, 일반적인 로라 로더와 정확히 동일하게 작동합니다.

V× 는 비디오 가지 가중치에만 곱해집니다. 0.0 으로 설정하면 LoRA 가 시각적으로 아무것도 기여하지 않습니다.

A× 는 오디오 가지 가중치에만 곱해집니다. 0.0 으로 설정하면 LoRA 가 오디오에 아무것도 기여하지 않습니다.

키 카운트 표시 (V:1152 A:2112) 는 로드할 때 각 LoRA 를 스캔하여 오디오 가지를 사용할 가치가 있는지 미리 알 수 있게 합니다. 침묵하는 푸티지에 대해 훈련된 LoRA 는 A:0 을 표시하며 오디오 컨트롤은 아무것도 하지 않습니다.

중요: 이 컨트롤은 LoRA 의 기여도를 제어할 뿐, 기본 모델의 출력을 제어하는 것은 아닙니다. 기본 LTX-2.3 모델은 자체적으로 오디오를 생성합니다. 이 노드는 각 LoRA 가 그 위에 추가하는 것을 제어할 뿐입니다.

Lora loader — 링크 <

더 많은 정보와 이미지는 링크에서 확인하세요.

Insights

LTX 2.3 LoRA 로더 오디오/비주얼 분리기

요약

핵심 포인트

댓글

Old Second Bancorp GAAP EPS $0.54로 $0.01 하회, 매출 $96.59M로 $14.59M 상회

AMC, 단 한 분기 만에 회의론자들을 잠재우다

MR-Compare: 물리적 환경과 공간적으로 정렬된 3D Gaussian Splatting 및 메쉬 재구성의 시각적 비교를 위한 혼합 현실

LowPowAR: 증강 현실 (AR)을 위한 전력 제한적 톤 매핑 (Tone Mapping)

Old Second Bancorp GAAP EPS $0.54로 $0.01 하회, 매출 $96.59M로 $14.59M 상회

AMC, 단 한 분기 만에 회의론자들을 잠재우다

MR-Compare: 물리적 환경과 공간적으로 정렬된 3D Gaussian Splatting 및 메쉬 재구성의 시각적 비교를 위한 혼합 현실

LowPowAR: 증강 현실 (AR)을 위한 전력 제한적 톤 매핑 (Tone Mapping)