본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 05:03

비트를 수정하고 코드를 확산시키기: 시각적 자기회귀 모델을 위한 비트 단위 잔차 편집 (Bitwise Residual Editing for

요약

시각적 자기회귀(VAR) 모델의 구조적 특성을 활용한 새로운 이미지 편집 기술인 BitResEdit을 제안합니다. 비트 단위 잔차를 제어하여 텍스트 정렬 성능을 높이면서도 배경 보존력을 유지하는 것이 특징입니다.

핵심 포인트

  • 비트 단위 잔차 구조를 활용한 학습 불필요 편집기 BitResEdit 제안
  • BitEdit과 ResEdit의 결합을 통해 결정 시점 가이드와 결합 시점 구성을 구현
  • PIE-Bench 테스트에서 기존 VAR 편집기 대비 우수한 텍스트 정렬 성능 입증
  • 편집 영역의 CLIP 점수를 기존 모델 대비 1.07점 향상

시각적 자기회귀 (Visual Autoregressive, VAR) 생성기를 이용한 텍스트 가이드 이미지 편집은 모델이 무엇을 샘플링하는지, 그리고 샘플링된 변경 사항이 이미지 코드의 어느 위치에 다시 쓰여지는지를 모두 제어해야 합니다. 기존의 VAR 편집기들은 주로 토큰 스트림 (token streams), 특징 (features), 또는 평탄한 다음 토큰 로짓 (flat next-token logits) 상에서 작동하며, 비트 단위 잔차 (bitwise-residual) VAR 모델의 두 가지 고유 구조인 비트별 베르누이 예측 헤드 (per-bit Bernoulli prediction head)와 이미지가 조립되는 가산적 다중 스케일 잔차 코드 필드 (additive multi-scale residual code field)를 충분히 활용하지 못하고 있습니다. 우리는 Infinity와 같은 비트 단위 잔차 VAR 생성기를 위한 학습이 필요 없는 편집기인 BitResEdit을 제안합니다. BitEdit은 공유된 편집 접두사 (edited prefix) 상에서 계산된 소스-타겟 대비 (source--target contrast)를 따라 사후 CFG (post-CFG) 비트별 로그 오즈 (log-odds)를 기울임으로써 소스-부정 가이드 (source-negative guidance)를 수행하며, 그 후 각 업데이트를 깨끗한 CFG 샘플러 주변의 폐쇄형 베르누이-KL 신뢰 영역 (closed-form Bernoulli-KL trust region)으로 투영합니다. ResEdit은 샘플링된 비트를 스케일별 연속 코드 잔차 (per-scale continuous-code residuals)로 변환하고, 이를 로컬라이제이션 마스크 (localization mask)로 게이팅(gating)한 뒤, 생성기의 고유한 스케일 합 (sum-of-scales)을 통해 재주입합니다. 이들은 결합하여 결정 시점의 비트 가이드 (decision-time bit guidance)와 결합 시점의 코드 구성 (combination-time code composition)을 결합하므로, 마스크 처리된 잠재 특징 (masked-out latent features)은 코드 산술 (code arithmetic)에 의해 정확하게 보존되는 동시에, 국소화되고 스케일을 인식하는 편집이 타겟 영역 내에 적용됩니다. Infinity-2B를 사용한 PIE-Bench 테스트에서 BitResEdit은 동일한 백본을 가진 VAR 편집기들 중 가장 강력한 텍스트 정렬 (text alignment) 성능을 달성하였으며, 배경 보존력을 기존의 가장 강력한 편집기와 경쟁력 있는 수준으로 유지하면서 편집된 영역의 CLIP 점수를 이전의 가장 강력한 편집기보다 +1.07 향상시켰습니다. 어블레이션 (Ablations) 연구를 통해 BitEdit과 ResEdit이 타겟 정렬과 배경 보존에서 상호 보완적인 역할을 한다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0