핵심 토큰 어텐션 기반 시드 선택을 통한 텍스트-이미지 확산 모델의 성능 향상
요약
텍스트-이미지 확산 모델의 결과물이 무작위 시드에 민감하게 반응하는 문제를 해결하기 위해, 프롬프트 핵심 토큰의 어텐션 역학을 활용한 ABSS(Attention-Based Seed Selection) 방식을 제안합니다. ABSS는 별도의 미세 조정 없이 추론 단계에서 핵심 토큰에 대한 크로스 어텐션을 분석하여 최적의 시드를 선택하며, 이를 통해 이미지 품질과 프롬프트 정렬 성능을 향상시킵니다.
핵심 포인트
- 텍스트-이미지 확산 모델의 시드 민감도(Seed Effect) 문제를 어텐션 역학 분석으로 접근
- 학습이 필요 없는 플러그 앤 플레이(Plug-and-play) 방식의 ABSS 기술 소개
- 디노이징 초기 단계의 핵심 토큰 크로스 어텐션을 활용한 시드 순위 지정
- 추론 단계에서 작동하는 경량화된 사전 선택(Pre-selection) 애드온으로서의 역할
- Stable Diffusion 모델에서 텍스트-이미지 정렬 및 시각적 품질의 일관된 향상 입증
텍스트-이미지 확산 모델 (Text-to-image diffusion models)은 고품질의 이미지를 합성할 수 있지만, 그 결과물이 무작위 시드 (random seed)에 매우 민감하다는 점은 잘 알려져 있습니다. 서로 다른 초기 시드는 종종 이미지 품질과 프롬프트-이미지 정렬 (prompt-image alignment) 측면에서 큰 차이를 만들어냅니다. 우리는 이러한 "시드 효과 (seed effect)"를 재검토하며, 초기 몇 단계의 디노이징 (denoising) 과정 동안 측정된 콘텐츠를 담고 있는 단어인 프롬프트 핵심 토큰 (prompt core tokens)에 대한 어텐션 역학 (attention dynamics)이 최종 생성 품질을 강력하게 예측한다는 것을 보여줍니다. 이러한 관찰을 바탕으로, 우리는 디노이징 과정 중 핵심 토큰에 대한 크로스 어텐션 (cross-attention)을 활용하여 주어진 프롬프트에 대한 시드 순위를 매기는 학습이 필요 없는 플러그 앤 플레이 (plug-and-play) 방식인 어텐션 기반 시드 선택 (Attention-Based Seed Selection, ABSS)을 소개합니다. ABSS는 미세 조정 (finetuning)을 요구하지 않으며 초기 노이즈를 변경하지 않습니다. 이는 고정된 수락/거절 임계값 (accept/reject threshold)에 의존하지 않고, 모든 후보 시드의 점수를 매기고 순위를 정하여 상위 k개만을 전체 생성에 유지하고 나머지는 버립니다. 순수하게 추론 (inference) 단계에서 작동하는 ABSS는 기존의 시드 최적화 파이프라인을 위한 경량화된 사전 선택 애드온 (pre-selection add-on) 역할을 하여 추가적인 이득을 얻을 수 있게 합니다. 세 가지 벤치마크에 걸친 광범위한 실험을 통해, ABSS가 Stable Diffusion 변형 모델들에 대해 텍스트-이미지 정렬 및 시각적 품질을 일관되게 향상시킨다는 것을 인간 선호도 및 정렬 지표를 통해 입증하였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG (Machine Learning)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기