arXiv논문2026. 06. 05. 13:25

부트스트랩 토큰화(Bootstrapped Tokenization)를 통한 이미지 압축과 생성의 균형 맞추기

요약

SelfBootTok은 이미지 토큰화 시 전역 및 지역 정보를 분리하여 중복성을 해결하는 새로운 방법론을 제안합니다. 이를 통해 생성기의 연산량을 40% 절감하면서도 우수한 재구성 및 생성 성능을 달성했습니다.

핵심 포인트

전역 및 지역 토큰 그룹 분리를 통한 정보 중복 제거
생성기 연산량 약 40% 감소 및 효율성 증대
64개 토큰만으로 SOTA gFID 점수(1.56) 달성
자기 지도 학습을 통한 확장 가능한 지역 표현 학습

이미지 토큰화(Image Tokenization)의 발전에도 불구하고, 표준적인 방법들은 각 토큰 내에 모든 입도(Granularity)를 혼합함으로써 중복된 정보를 인코딩하며, 이로 인해 토큰 간의 중복성이 지속됩니다. 서로 다른 입도의 정보가 혼합되는 것은 생성기(Generator)의 학습을 복잡하게 만들기도 합니다. 본 논문은 정보를 전역(Global) 및 지역(Local) 토큰 그룹으로 깔끔하게 분해함으로써 이 문제를 해결하는 방법론인 SelfBootTok을 소개합니다. 셀프 부트스트랩 학습(Self-bootstrapped learning)을 통해, 모델은 전역 토큰으로부터 지역적 세부 사항(Local details)만을 독점적으로 예측하며, 시각적 세부 사항의 부담을 생성기에서 토크나이저(Tokenizer)로 전환합니다. 결과적으로 우리의 생성기는 전역 토큰만을 필요로 하여 연산량을 약 40% 줄이면서도 훨씬 더 효율적이며, 동시에 우수한 재구성(Reconstruction) 및 생성 성능을 제공합니다. 또한, 이 패러다임은 우아하게 확장 가능합니다. 지역 표현 학습(Local representation learning)을 자기 지도(Self-supervise)하기 위해 더 많은 데이터나 파라미터를 활용함으로써, SelfBootTok은 단 64개의 토큰만을 사용하여 1.56이라는 새로운 SOTA(State-of-the-art) gFID 점수를 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

부트스트랩 토큰화(Bootstrapped Tokenization)를 통한 이미지 압축과 생성의 균형 맞추기

요약

핵심 포인트

댓글