학습 가능한 전역 병합을 통한 Diffusion Transformer용 가변 길이 토큰화 (Variable-Length Tokenization)
요약
Diffusion Transformer의 연산 효율성을 높이기 위해 토큰을 병합하여 길이를 조절하는 새로운 가변 길이 토크나이저를 제안합니다. 기존의 절단 방식 대신 데이터 독립적인 학습 가능한 전역 병합을 도입하여 표현 정렬 문제를 해결하고 생성 품질을 개선했습니다.
핵심 포인트
- 고정된 압축률 문제를 해결하기 위한 가변 길이 토크나이저 제안
- 토큰 절단 대신 병합 방식을 사용하여 표현 정렬(alignment) 유지
- 데이터 독립적인 학습 가능한 전역 병합(learnable global merging) 도입
- ImageNet 실험 결과 기존 방식 대비 우수한 gFID-연산량 트레이드오프 달성
잠재 확산 모델 (Latent Diffusion Models, LDMs)은 시각적 합성 분야에서 지배적인 위치를 차지하게 되었으나, 이들의 품질-연산량 트레이드오프 (quality-compute trade-off)는 토크나이저 (tokenizer)의 고정된 압축률에 의해 크게 제한됩니다. 가변 길이 토크나이저 (Variable-length tokenizers, VLTs)는 토큰 수를 변화시켜 적응형 압축을 약속하며, 확산 모델 (diffusion models)이 품질과 연산량 사이의 균형을 유연하게 맞출 수 있도록 합니다. 그러나 기존의 VLT는 정렬된 토큰 시퀀스를 절단 (truncating)함으로써 길이를 조절하는데, 이는 토큰의 의미론 (semantics)이 토큰 위치에 의존하게 만들고 길이 간 표현 정렬 (representational alignment)을 깨뜨립니다. 이는 잠재 분포 (latent distribution)의 길이 간 변화 (cross-length shift)를 초래하여, 단일 가변 길이 확산 모델이 효과적으로 작동하는 것을 방해합니다. 이를 해결하기 위해, 우리는 토큰을 병합 (merging)함으로써 길이를 조절하는 새로운 가변 길이 토크나이저를 제안합니다. 우리는 유사한 토큰들이 병합되도록 유도하면, 확산 트랜스포머 (diffusion transformer)가 병합 패턴에 따라 작동할 때 직접적인 길이 간 표현 정렬을 가능하게 함을 보여줍니다. 기존의 병합 방법들은 데이터 의존적 (data-dependent)이어서 생성 과정 중에 병합 패턴에 접근할 수 없으므로, 우리는 확산 트랜스포머와의 호환성을 보장하기 위해 데이터 독립적 (data-independent)인 학습 가능한 전역 병합 (learnable global merging)을 도입합니다. ImageNet 256$ imes$256 생성 실험에서, 확산 트랜스포머와 통합된 우리의 병합 기반 가변 길이 토크나이저는 기존 VLT 방법들과 비교하여 우수한 gFID-연산량 트레이드오프를 달성합니다. 코드는 this https URL에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기