arXiv논문2026. 06. 26. 10:46

반복적 자기 개선 코드북을 통한 안전한 자기회귀적 이미지 생성

요약

자기회귀적 멀티모달 모델의 이미지 생성 안전성을 높이기 위해 반복적 자기 개선 코드북을 제안합니다. 인간의 주석 없이 모델 스스로 유해한 이미지-텍스트 쌍을 식별하고 코드북을 미세 조정하여 안전한 생성을 유도합니다.

핵심 포인트

자기회귀적 모델의 이산적 시각 토큰 기반 이미지 생성 방식 활용
인간 개입 없이 모델의 판단 능력을 이용한 유해 생성물 식별
유해 공간 구축 및 코드북 업데이트를 통한 유해 매핑 제거
안전한 이미지-텍스트 쌍을 활용한 적응형 미세 조정 수행

연속적인 잠재 공간 (continuous latent spaces)에서 작동하는 확산 기반 (diffusion-based) 모델과 달리, 자기회귀적 통합 멀티모달 모델 (autoregressive unified multimodal models)은 이산화된 시각적 토큰 (discretized visual tokens)을 순차적으로 예측함으로써 이미지를 생성합니다. 이러한 토큰은 임베딩을 양자화된 시각적 패턴으로 매핑하는 코드북 (codebook)으로부터 유도됩니다. 언어와 유사한 아키텍처 (architecture) 덕분에 통합 멀티모달 모델은 생성을 위한 텍스트 조건 정보 (text conditional information)를 효과적으로 포착할 수 있으며, 이는 텍스트-이미지 (text-to-image) 작업에 있어 유망한 가능성을 보여줍니다. 이는 또한 흥미로운 질문을 제기합니다: 이러한 자기회귀적 방식으로 생성된 이미지는 얼마나 안전한가? 본 연구에서는 안전한 자기회귀적 생성을 위한 반복적 자기 개선 코드북 (iterative self-improving codebooks)을 제안합니다. 우리는 인간의 주석 (human annotation) 없이도 안전하지 않은 생성 이미지를 식별하기 위해 통합 멀티모달 모델 자체의 이해 및 판단 능력을 활용합니다. 그 후, 유해한 매핑을 제거하기 위해 코드북 내의 고유한 표현 (inherent representations)을 고정합니다. 우리의 방법은 두 단계로 구성됩니다: 첫째, 통합 모델을 사용하여 안전하지 않은 생성을 식별하고 그에 상응하는 유해한 이미지-텍스트 쌍과 안전한 이미지-텍스트 쌍을 구축합니다. 이 쌍들은 유해 공간 (Harmful Space)을 구축하고 코드북 업데이트를 가이드하여 유해한 출력을 제거하는 데 사용됩니다. 둘째, 생성된 이미지의 품질을 보장하기 위해 안전한 이미지-텍스트 쌍을 사용하여 무해한 공간 (harmless space) 내에서 코드북에 대한 적응형 미세 조정 (adaptive fine-tuning)을 수행합니다. 이 두 단계는 더 이상의 개선이 관찰되지 않을 때까지 반복되어, 안전성이 강화된 모델 코드북을 생성합니다. 추가적인 외부 피드백 없이도 모델의 안전성이 반복적으로 향상됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

반복적 자기 개선 코드북을 통한 안전한 자기회귀적 이미지 생성

요약

핵심 포인트

댓글