arXiv논문2026. 06. 03. 12:15

프롬프트 인지 가중치를 이용한 훈련이 필요 없는 다중 개념 LoRA 합성

요약

여러 LoRA 모듈을 결합할 때 발생하는 개념 간 간섭 문제를 해결하기 위해 프롬프트 인지 가중치 전략을 제안합니다. W-Switch와 W-Composite 방식을 통해 각 개념의 중요도에 따라 가중치를 부여하여 시각적 품질과 충실도를 높였습니다.

핵심 포인트

프롬프트 토큰의 의미론적 영향력을 활용한 가중치 부여
W-Switch 및 W-Composite 전략을 통한 다중 개념 합성
이미지 기반의 새로운 유사도 평가 프레임워크 제안
기존 SOTA 방식 대비 시각적 품질 및 정체성 보존 개선

저차원 적응 (Low-Rank Adaptation, LoRA)은 사전 학습된 확산 모델 (diffusion models)을 특정 시각적 개념 및 스타일로 적응시킴으로써 텍스트-이미지 생성 (text-to-image generation)에서의 개인화를 성공적으로 가능하게 합니다. 그러나 이러한 모델을 다중 개념 커스텀 (multi-concept customization)으로 확장하는 것은 여전히 어려운 과제로 남아 있습니다. 여러 LoRA 가중치나 그 출력값을 단순히 결합하는 방식은 종종 개념 간의 간섭을 초래하여, 시각적 품질을 저하시키고 개별 개념의 참조 이미지에 대한 충실도 (fidelity)를 감소시킵니다. 본 논문은 여러 LoRA 모듈의 출력을 최적으로 결합함으로써 다중 개념 커스텀을 수행하는 단순하면서도 효과적인 접근 방식을 제안합니다. 우리는 해당 프롬프트 토큰 (prompt tokens)으로부터 추론된 생성 과정 중 각 개념의 상대적 중요도를 활용하며, 타겟 프롬프트 내 트리거 단어 (trigger words)의 의미론적 영향력에 따라 각 LoRA에 가중치를 부여하는 프롬프트 인지 중요도 가중치 전략을 사용하는 두 가지 방법인 W-Switch와 W-Composite을 도입합니다. 또한, 실제 참조 이미지와 생성된 이미지에서 자동으로 분할된 개념 영역 사이의 비교를 통해 이미지 충실도와 정체성 보존 (identity preservation)을 평가하는 새로운 이미지 기반 유사도 평가 프레임워크를 제안하여 기존의 정량적 평가 지표를 확장합니다. 우리는 ComposLoRA 테스트베드에서 우리의 접근 방식을 평가하였으며, 시각적 품질, 정체성 보존 및 구성성 (compositionality) 측면에서 기존의 최첨단 (state-of-the-art) 방법들보다 일관된 개선을 보여주었습니다. 대규모 언어 모델 (Large Language Model, LLM) 기반 평가 및 사용자 연구를 포함한 정성적 평가는 제안된 방법의 효과를 추가로 검증하며, 새로 도입된 정량적 이미지 기반 지표와 일치함을 보여줍니다. 우리의 코드는 https://github.com/GeorgeTsoumplekas/Prompt-Aware-Multi-LoRA-Composition 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

프롬프트 인지 가중치를 이용한 훈련이 필요 없는 다중 개념 LoRA 합성

요약

핵심 포인트

댓글