다회차 반성적 마스킹(Multi-Turn Reflective Masking)은 마스크 확산 모델(Mask Diffusion Models)의
요약
마스크 확산 모델(MDMs)에서 이전 출력을 반복적으로 재검토하고 수정할 수 있는 '반성적 마스킹(Reflective Masking)' 기술을 제안합니다. 아키텍처 변경 없이도 테스트 시간 스케일링을 통해 텍스트, 스도쿠, 이미지 편집 등 다양한 작업에서 성능을 향상시킵니다.
핵심 포인트
- MDM의 마스킹 메커니즘을 활용한 국소적 수정 및 개선 가능
- 경량화된 사후 학습을 통한 내재적 추론 능력 유도
- 파라미터 프리 방식의 히스토리 참조 메커니즘 도입
- 텍스트, 스도쿠, 이미지 등 다양한 모달리티에서 범용성 입증
자기회귀 (AR) 모델에서의 추론은 흔히 사고의 사슬 (Chain-of-Thought) 추론과 반성 (Reflection)을 통해 수행되지만, 이전 출력물을 개선하는 과정은 국소적인 수정 (Local edits)만 필요한 경우에도 여전히 완전히 순차적인 생성 (Fully sequential generation)에 의존합니다. 이와 대조적으로, 마스크 확산 모델 (Mask Diffusion Models, MDMs)의 마스킹 메커니즘은 이전 출력물에 대한 명시적인 국소 수정을 자연스럽게 지원하여, 이전 답변을 버리고 처음부터 다시 생성할 필요 없이 선택적인 개선을 가능하게 합니다. 이러한 특성은 인간이 반복적인 국소 개선을 통해 실수를 바로잡는 방식과 더 밀접하게 일치하지만, 기존의 MDMs는 다회차 마스킹 (Multi-turn masking) 및 디노이징 (Denoising)을 지원하지 않습니다. 우리는 경량화된 사후 학습 (Post-training)을 통해 MDMs에서 이러한 내재적인 추론 능력을 이끌어내는 반성적 마스킹 (Reflective Masking, RM)을 제안합니다. RM은 MDM이 진화하는 문맥 (Context)에 따라 이전 출력물을 반복적으로 재검토하고 수정하는 네이티브 테스트 시간 스케일링 (Test-time scaling)을 제공합니다. AR 추론과 같이 이전 회차의 통찰력을 활용하기 위해, 우리는 수정 과정 중 중간 디노이징 상태를 활용하는 파라미터 프리 (Parameter-free) 메커니즘인 히스토리 참조 (History Reference)를 추가로 도입합니다. 우리의 접근 방식은 아키텍처 변경을 요구하지 않으며 기존 MDMs에 쉽게 적용할 수 있습니다. 텍스트 생성, 스도쿠 (Sudoku), 이미지 편집을 포함한 다양한 작업과 모달리티 (Modalities)에 걸쳐, 반성적 마스킹 (Reflective Masking)은 표준 마스킹 기반 베이스라인을 지속적으로 능가하며 강력한 일반성을 입증하여, RM을 MDMs 추론을 위한 근본적인 프리미티브 (Primitive)로 자리매김합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기