arXiv논문2026. 05. 26. 12:52

피사체 주도 생성을 위한 멀티모달 거대 언어 모델(MLLM)의 용량 활용

요약

피사체의 정체성을 유지하며 이미지를 생성하는 새로운 MLLM 기반 프레임워크를 제안합니다. DLA 모듈과 다단계 디노이징 전략을 통해 텍스트 지시 이행과 정체성 보존 사이의 균형을 최적화합니다.

핵심 포인트

텍스트와 참조 이미지를 공동 인코딩하여 교차 모달 추론 능력 향상
DLA 모듈을 통한 다단계 MLLM 특징 집계 설계
VAE 기반 정체성 조건화로 복사-붙여넣기 아티팩트 완화
인간 선호도 측면에서 우수한 피사체 주도 이미지 생성 성능 입증

피사체 주도 이미지 생성(Subject-driven image generation)은 텍스트 지시를 따르면서 주어진 피사체의 정체성(identity)을 유지하는 새로운 이미지를 합성하는 것을 목표로 합니다. 기존 방식들은 흔히 텍스트와 참조 이미지를 별도로 인코딩합니다. 이는 교차 모달 추론(cross-modal reasoning) 능력을 제한하고 복사-붙여넣기 아티팩트(copy-paste artifacts)를 유발합니다. 멀티모달 모델과 확산 모델(diffusion models)을 연결하는 최근의 프레임워크들은 지시 이행(instruction following) 능력을 향상시켰으나, 정체성 보존(identity preservation) 측면은 대체로 간과하고 있습니다. 이러한 한계를 해결하기 위해, 본 연구에서는 텍스트와 참조 이미지를 공동으로 인코딩하는 멀티모달 거대 언어 모델(Multimodal Large Language Models, MLLMs)을 확산 모델의 조건(condition)으로 사용하며, 이를 VAE 기반의 정체성 조건화(identity conditioning)로 보강합니다. 최적의 조건화를 위해 다단계 MLLM 특징을 집계하는 새로운 이중 레이어 집계(Dual Layer Aggregation, DLA) 모듈을 설계하였으며, 추론 과정에서 MLLM의 의미론적 정보(semantic information)와 VAE의 미세한 정체성 세부 사항(fine-detail identity) 사이의 균형을 점진적으로 맞추기 위해 다단계 디노이징(multi-stage denoising) 전략을 적용합니다. 광범위한 실험을 통해 우리의 접근 방식이 멀티모달 이해와 정체성 보존을 조화시키고, 복사-붙여넣기 문제를 완화하며, 피사체 주도 이미지 생성에 있어 인간 선호도(human preference) 측면에서 우수한 성능을 달성함을 입증합니다. 프로젝트 웹사이트는 https://zsh2000.github.io/squeeze-mllm-subject-gen/ 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

피사체 주도 생성을 위한 멀티모달 거대 언어 모델(MLLM)의 용량 활용

요약

핵심 포인트

댓글