arXiv논문2026. 06. 15. 03:48

A2D2: 적응형 디코딩을 위한 임의 길이 이산 확산 모델 미세 조정

요약

본 논문은 적응형 디코딩을 위해 임의 길이 이산 확산 모델에 대한 보상 안내 미세 조정 프레임워크인 A2D2를 제안합니다. A2D2는 삽입 및 마스킹 정책을 공동 최적화하고 품질 기반 추론 스케줄을 통해 이론적으로 수렴함을 증명했습니다. 이를 통해 기존 방식 대비 생성 유연성과 정확도를 모두 향상시킵니다.

핵심 포인트

A2D2: 적응형 디코딩을 위한 임의 길이 이산 확산 모델 미세 조정 프레임워크 제시
삽입 및 마스킹 정책 공동 최적화와 품질 기반 추론 스케줄 사용
Radon-Nikodym 도함수 유도를 통해 이론적 수렴성 증명
기존 고정 길이 또는 추론 시간 안내 방식보다 성능 개선

이산 확산 모델(Discrete diffusion models)은 시퀀스 생성을 위한 간단하고 안정적인 우도 기반 프레임워크를 제공하며, 최근 토큰 삽입(token insertion)을 통해 임의 길이 설정으로 확장되었습니다. 하지만 임의 길이 이산 확산에 대한 원리적 보상 안내 미세 조정(reward-guided fine-tuning)은 여전히 거의 탐구되지 않은 영역입니다. 본 논문에서는 적응형 디코딩을 위한 임의 길이 이산 확산 모델 미세 조정(Fine-Tuning Any-Length Discrete Diffusion for Adaptive Decoding, A2D2)이라는 통합 프레임워크를 소개합니다. 이는 삽입 정책과 마스킹 정책을 공동 최적화하고 품질 기반 추론 스케줄(quality-based inference schedule)을 통해 임의 길이 이산 확산 모델에 대한 보상 안내 미세 조정을 수행하는 방식입니다. 우리는 결합된 삽입-마스킹 경로 측정값(joint insertion-unmasking path measures)에 대해 Radon-Nikodym 도함수(Radon-Nikodym derivative)를 유도하여, 목표 샘플을 요구하지 않고도 추적 불가능한 보상 기울임 시퀀스 분포(reward-tilted sequence distribution)로 이론적으로 수렴함을 보장합니다. 이를 바탕으로, 우리는 디코딩 오류를 최소화하기 위한 실용적인 접근 방식으로서 마스킹 및 삽입 품질을 확립하고, 보상 기울임 분포를 생성하는 최적의 경로 측정값을 증명적으로 제공하는 Adaptive Joint Decoding (AJD) 손실을 도입했습니다. 실험적으로 A2D2는 기존 고정 길이 미세 조정 방법이나 추론 시간 안내(inference-time guidance) 방식보다 보상 최적화를 개선함과 동시에 생성 유연성과 정확도를 향상시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

A2D2: 적응형 디코딩을 위한 임의 길이 이산 확산 모델 미세 조정

요약

핵심 포인트

댓글