의미론적 블렌딩을 위한 텍스트 임베딩의 토큰 간 정렬 (Token-to-Token Alignment)
요약
텍스트 임베딩 공간의 정렬 불량 문제를 해결하기 위해 토큰 간 정렬(Token-to-Token Alignment) 프레임워크를 제안합니다. 구조적 정렬과 임베딩 수준의 정렬을 통해 의미론적으로 유사한 개념들이 일관된 위치에 매핑되도록 하여, 이미지 블렌딩과 연속적 편집을 가능하게 합니다.
핵심 포인트
- 텍스트 임베딩의 구조적 결여로 인한 이미지 제어의 어려움 해결
- 구조적 정렬과 임베딩 수준 정렬을 통한 두 단계 접근 방식
- 선형 보간을 통한 매끄럽고 일관된 의미론적 전환 구현
- 기존 모델 수정 없이 표현 조직만으로 의미론적 제어 달성 가능
현대의 생성 모델 (Generative models)에서 이미지는 텍스트 프롬프트 (Text prompts)를 통해 지정되고 제어됩니다. 실제로 이미지는 이러한 프롬프트로부터 파생된 토큰 시퀀스 (Sequences of tokens)를 통해 생성됩니다. 그러나 토큰 시퀀스의 공간은 일관되고 접근 가능한 구조가 부족합니다. 즉, 의미론적으로 유사한 이미지들이 단어 선택, 순서, 개념의 배치 측면에서 서로 다른 시퀀스에 대응될 수 있는 반면, 유사한 토큰 시퀀스가 매우 다른 의미론적 내용을 인코딩할 수도 있습니다. 이러한 명백한 구조적 결여는 이 공간 내에서 매끄러운 전환 (Smooth transitions)을 수행하는 것을 어렵게 만들며, 이미지 블렌딩 (Image blending) 및 편집의 연속적 제어 (Continuous control of edits)와 같은 응용 분야를 저해합니다. 우리는 이러한 한계가 의미론적 구조의 부재 때문이 아니라, 표현 (Representations) 간의 정렬 불량 (Misalignment)에서 기인한다고 주장합니다. 이 정렬 불량을 해결하기 위해, 우리는 프롬프트 간의 토큰 사이에 명시적인 의미론적 대응 관계를 구축하는 프레임워크인 토큰 간 정렬 (Token-to-Token alignment)을 소개합니다. 우리의 접근 방식은 프롬프트를 의미론적으로 대응하는 개념들이 프롬프트 전반에 걸쳐 일관된 위치에 매핑되는 구조화된 표현 (Structured representation)으로 변환한 다음, 의미론적 유사성을 기반으로 그들의 토큰 임베딩 (Token embeddings)을 정렬합니다. 구체적으로, 이 방법은 두 단계로 구성됩니다: 프롬프트를 공유된 구조적 형태로 재구성하는 구조적 정렬 (Structural alignment), 그리고 프롬프트 간의 토큰 표현을 일치시키는 임베딩 수준의 정렬 (Embedding-level alignment)입니다. 이러한 정렬이 이루어지면, 단순한 선형 보간 (Linear interpolation)이 의미 있는 연산이 되어 매끄럽고 일관된 의미론적 전환을 생성하며, 블렌딩 및 연속적 편집과 같은 응용을 가능하게 합니다. 우리의 결과는 텍스트-이미지 모델 (Text-to-image models)의 텍스트 임베딩 공간이 표현이 적절히 정렬될 때 접근 가능한 연속적인 의미론적 구조를 암묵적으로 인코딩하고 있음을 보여주며, 이는 생성 모델을 수정하기보다 기존의 표현을 조직함으로써 의미론적 제어를 달성할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기