구조적 사전 확률로서의 엔트로피: DiT 신념 공간의 로그 배리어(Log-Barrier)가 음악적 다양성과 전개를 유도하는 방식
요약
DiT 모델의 엔트로피를 활용한 새로운 가중치 방식인 'Eisbach 로그 배리어'를 제안합니다. 이를 통해 Stable Audio 3 Medium 미세 조정 시 모드 붕괴를 방지하고 음악적 다양성과 주제적 전개를 향상시켰습니다.
핵심 포인트
- Eisbach 로그 배리어를 통한 엔트로피 기반 가중치 도입
- 높은 엔트로피 시 그래디언트 감쇄, 낮은 엔트로피 시 보존
- Stable Audio 3 Medium 미세 조정 시 음악적 질감 및 다양성 증대
- 온라인 방식의 자기 참조적 데이터 커리큘럼 형성
신뢰도 기반 손실 가중치(Confidence-based loss weighting)는 생성 모델에서 모델이 확신을 가지고 틀렸을 때 오류를 가속화하기 때문에 보통 피하는 방식이지만, 지도 확산 학습(Supervised diffusion training)에서는 이러한 직관이 무너집니다. 본 논문에서는 DiT 출력의 공간 에너지 분포(Spatial energy distribution) 엔트로피에서 유도된 파라미터가 없는 가중치인 Eisbach 로그 배리어(Log-barrier)를 소개합니다. 높은 엔트로피는 그래디언트(Gradient)를 감쇄시키고, 낮은 엔트로피는 이를 보존합니다. MusicCaps 데이터셋을 사용하여 Stable Audio 3 Medium을 LoRA 미세 조정(Fine-tuning)에 적용한 결과, 가중치를 적용하지 않은 학습과는 반대로 모드 붕괴(Mode collapse)가 아닌, 예상치 못한 강력한 주제적 전개, 더 명확한 음향적 차별화, 그리고 더 높은 질감적 다양성을 보여주었습니다. 이는 지도 확산 학습에서 그래디언트 방향이 정답(Ground truth)에 고정되어 있어 신뢰도가 오직 스텝 크기(Step size)만을 조절하기 때문이며, 또한 시간적 엔트로피(Temporal entropy)가 평이한 샘플의 가중치는 낮추는 반면 대비가 높은 샘플은 보존하기 때문입니다. 그 결과, 순수하게 순전파(Forward pass) 과정에서 발생하는 온라인 방식의 자기 참조적 데이터 커리큘럼(Data curriculum)이 나타나며, 분석된 노이즈 레벨 역학 및 테스트 가능한 예측을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기