arXiv논문2026. 06. 29. 22:39

Masked Diffusion Model을 위한 VGB: 보상 충족 및 샘플 편집을 위한 효율적인 테스트 시간 스케일링 (Test-time

요약

Masked Diffusion Model(MDM)의 성능을 높이기 위해 보상 유도 재마스킹 기술을 적용한 MDM-VGB 샘플러를 제안합니다. 이 방식은 백트래킹 랜덤 워크를 통해 고보상 샘플 생성을 유도하며, 기존 방식보다 효율적인 복잡도로 제약 조건 충족 문제를 해결합니다.

핵심 포인트

MDM-VGB: 보상 충족 및 샘플 편집을 위한 효율적인 테스트 시간 스케일링 기법
백트래킹 랜덤 워크를 활용하여 토큰의 언마스킹 및 재마스킹 최적화
best-of-N 대비 낮은 이차 복잡도(quadratic complexity) 달성
Sudoku 및 QM9 벤치마크에서 강력한 성능 입증

추론 시간 스케일링 (Inference-time scaling)은 생성 모델을 개선하기 위한 유망한 패러다임이며, 특히 출력이 구조적 제약 조건을 충족해야 하거나 다운스트림 보상 (downstream rewards)을 최적화해야 할 때 더욱 그러합니다. 본 연구에서는 Masked Diffusion Model (MDM)을 고려하며, 이론적으로 원칙에 기반한 보상 유도 재마스킹 (reward-guided remasking)을 통해 언마스킹 (unmasking) 생성을 증강하는 이산 확산 샘플러 (discrete diffusion sampler)인 MDM-VGB를 소개합니다. 보상 기울기 생성 (reward-tilted generation)에서 고전적인 Jerrum-Sinclair 백트래킹 마르코프 체인 (backtracking Markov chain)이 거둔 최근의 성공에 영감을 받아, MDM-VGB는 백트래킹 랜덤 워크 (backtracking random walk)를 고정된 접두사 트리 (prefix tree)에서 마스크 상태 그래프 (masked-state graph)로 확장하여, 토큰이 임의의 위치에서 언마스킹 및 재마스킹될 수 있도록 합니다. 결과적으로 이 샘플러는 더 높은 가치의 부분 구성 (partial configurations)으로 이어지는 언마스킹 및 재마스킹 이동을 선호하며, 이를 통해 효과적인 고보상 생성과 저보상 샘플의 효율적인 수정을 모두 가능하게 합니다. 우리는 MDM-VGB가 프로세스 검증기 (process-verifier) 노이즈에 강건하며 이차 복잡도 (quadratic complexity)를 달성하는 반면, best-of-$N$과 같은 대중적인 테스트 시간 휴리스틱 (test-time heuristics)은 오류 누적으로 인해 지수 복잡도 (exponential complexity)를 초래할 수 있음을 증명합니다. 우리의 이론적 발견은 Sudoku 및 QM9과 같은 인기 있는 제약 조건 충족 (constraint-satisfaction) 및 과학적 벤치마크에서 강력한 실증적 성능을 통해 뒷받침됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

Masked Diffusion Model을 위한 VGB: 보상 충족 및 샘플 편집을 위한 효율적인 테스트 시간 스케일링 (Test-time

요약

핵심 포인트

댓글