arXiv논문2026. 06. 29. 11:16

픽셀 공간 자기회귀(Autoregressive) 이미지 생성을 위한 병렬 롤아웃 근사(Parallel Rollout Approximation)

요약

픽셀 공간 자기회귀(AR) 이미지 생성 시 발생하는 오차 누적과 느린 샘플링 문제를 해결하기 위한 PRA 프레임워크를 제안합니다. 저차원 중간 상태를 활용해 병렬 학습과 픽셀 피드백 근사를 동시에 달성하며, ImageNet-1K 생성에서 SOTA 성능을 기록했습니다.

핵심 포인트

픽셀 공간 AR 모델의 학습-추론 간극 및 오차 누적 문제 해결
저차원 중간 상태 생성을 통한 병렬 롤아웃 근사(PRA) 방식 제안
ImageNet-1K 생성 작업에서 기존 모델을 능가하는 SOTA FID 달성
이미지 생성뿐만 아니라 분류 프로빙에서도 높은 정확도 입증

픽셀 공간 연속 토큰 자기회귀 (Autoregressive, AR) 생성은 이미지를 가공되지 않은 픽셀 패치(pixel patches)의 시퀀스로 직접 모델링하여, 이산 토큰화(discrete tokenization)나 별도로 사전 학습된 토크나이저(tokenizer)를 사용하는 것을 피합니다. 그러나 이는 결합된 문제들에 직면합니다. 고차원 패치 생성은 큰 단일 단계 오차(single-step errors)를 유발하며, 교사 강제 학습 (teacher-forced training)은 이러한 오차가 AR 단계 전반에 걸쳐 누적되게 만드는 학습-추론 간극 (train--inference gap)을 생성합니다. $x$-예측 및 입력 노이즈 주입과 같은 기존의 해결책들은 이러한 문제들을 부분적으로만 완화합니다. 정확한 롤아웃 학습 (Exact rollout training)은 추론 시의 조건과 더 잘 일치하지만, 지나치게 느린 순차적 샘플링 (sequential sampling)으로 인해 비실용적입니다. 우리는 두 가지 과제를 공동으로 해결하는 확장 가능한 프레임워크인 병렬 롤아웃 근사 (Parallel Rollout Approximation, PRA)를 제안합니다. PRA는 고차원 픽셀 패치 대신 저차원 중간 상태 (intermediate states)를 생성한 다음, 픽셀 디코더 (pixel decoder)를 통해 이를 다시 픽셀 공간 토큰으로 매핑하여, 픽셀 입력-픽셀 출력 (pixel-in, pixel-out) AR 인터페이스를 유지합니다. 또한, 추론 시 사용되는 것과 동일한 중간 상태-to-픽셀 경로를 통해 위치별로 독립적으로 추론과 유사한 픽셀 입력을 구성함으로써, 병렬 교사 강제 학습을 유지하면서도 추론 시 롤아웃 중에 발생하는 픽셀 피드백 (pixel-feedback) 인터페이스를 근사합니다. $256 imes256$ 해상도의 클래스 조건부 ImageNet-1K 생성에서, 135M 파라미터를 가진 PRA-S는 2.58의 FID를 달성하여, 이전의 10억 단위 규모 픽셀 공간 AR 결과인 3.60을 능가했습니다. 511M 파라미터를 가진 PRA-L로 확장하면 FID가 1.94로 더욱 향상되어, 픽셀 공간 AR 모델들 사이에서 새로운 SOTA (state of the art)를 확립합니다. 생성 외에도, PRA는 다른 AR 및 확산 (diffusion) 베이스라인보다 더 높은 ImageNet 분류 프로빙 (classification probing) 정확도를 달성하며, 이는 통합된 픽셀 공간 이미지 생성 및 이해를 위한 잠재력을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

픽셀 공간 자기회귀(Autoregressive) 이미지 생성을 위한 병렬 롤아웃 근사(Parallel Rollout Approximation)

요약

핵심 포인트

댓글