DealMaTe: Diffusion Transformer을 통한 다차원 재질 전이
요약
DealMaTe는 텍스트 가이드와 참조 네트워크 없이 깊이, 법선, 조명 이미지를 활용하여 고품질의 재질 전이를 수행하는 새로운 확산 프레임워크입니다. Multi-Dim 3D Shader LoRA를 통해 베이스 모델 수정 없이 3D 정보를 주입하며, 어텐션 메커니즘 최적화를 통해 계산 효율성을 높였습니다. 다양한 실험을 통해 임의의 입력 재질에서도 높은 충실도를 가진 재질 전이 성능을 입증했습니다.
핵심 포인트
- 텍스트 의존성 및 추가 계산 비용 문제를 해결한 단순화된 확산 프레임워크 제안
- Multi-Dim 3D Shader LoRA를 통한 경량화된 3D 정보 주입 방식 설계
- Shader Causal Mutual Attention 및 KV 캐싱을 통한 추론 지연 감소 및 효율성 개선
- 깊이, 법선, 조명 정보를 활용한 고충실도(high-fidelity) 재질 전이 달성
최근 확산 기반 (diffusion-based) 재질 전이 (material transfer) 방법들은 이미지 미세 조정 (fine-tuning) 또는 보조 네트워크를 포함한 복잡한 구조에 의존하고 있으나, 텍스트 의존성, 추가적인 계산 비용, 그리고 특징 불일치 (feature misalignment)와 같은 문제에 직면해 있습니다. 이러한 한계를 해결하기 위해, 우리는 깊이 (depth), 법선 (normal), 그리고 조명 (lighting) 이미지를 사용하여 재질 전이 (material transfer)를 수행하는 extbf{DealMaTe}를 제안합니다. DealMaTe는 텍스트 가이드 (text guidance)와 참조 네트워크 (reference networks)를 제거한 단순화된 확산 프레임워크 (diffusion framework)입니다. 우리는 베이스 모델 (base model)의 가중치를 수정하지 않고도 호환 가능한 제어 조건 (control conditions)을 가능하게 하며 조화롭고 안정적인 결과를 달성하는 경량 3D 정보 주입 방식인 Multi-Dim 3D Shader LoRA를 설계했습니다. 또한, 여러 조건으로 인해 발생하는 추론 지연 (inference latency)을 줄이고, 계산 효율성을 개선하며, 낮은 구조적 복잡성으로 고품질의 재질 전이 결과를 얻기 위해 Shader Causal Mutual Attention 및 키-값 (KV) 캐싱 (caching)을 사용하여 어텐션 메커니즘 (attention mechanism)을 최적화했습니다. 다양한 객체와 조명 조건을 아우르는 광범위한 실험을 통해, DealMaTe가 임의의 입력 재질 하에서 놀라운 고충실도 (high-fidelity) 재질 전이를 달성함을 일관되게 입증했습니다. 코드는 https://github.com/haha-lisa/DealMaTe 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기