arXiv논문2026. 06. 15. 07:31

완전 무작위 마스킹을 넘어: 확산 언어 모델을 위한 어텐션 기반 디노이징 및 최적화

요약

본 연구는 확산 대규모 언어 모델(dLLMs)의 한계를 분석하고, 기존 무작위 마스킹 전략 대신 어텐션 기반 디노이징 및 최적화 프레임워크인 AGDO를 제안합니다. AGDO는 토큰 간의 어텐션 의존성을 활용하여 훈련과 최적화 과정을 개선하며, 추론 성능 향상에 기여함을 입증했습니다.

핵심 포인트

dLLMs는 자기회귀 모델 대비 효율적인 대안을 제공함.
기존 방법은 토큰 의존성을 간과하고 무작위 마스킹에 의존함.
AGDO는 어텐션 구조 기반으로 디노이징 및 최적화 순서를 결정함.
실험 결과, AGDO가 dLLM의 추론 성능을 효과적으로 향상시킴.

확산 대규모 언어 모델(dLLMs)은 병렬 디코딩을 통해 자기회귀 모델에 대한 효율적인 대안을 제공하지만, 기존의 사후 훈련 방법들은 내재된 토큰 의존성을 간과하는 데 주로 무작위 마스킹 전략에 의존합니다. 본 연구에서는 dLLM에서의 어텐션에 대한 경험적 분석을 제시하며, 마스크되지 않은 컨텍스트에 더 강하게 어텐션을 하는 토큰이 더 높은 생성 안정성을 보이고 추론에서 중요한 역할을 한다는 것을 보여줍니다. 이러한 발견에 영감을 받아, 우리는 훈련과 최적화 모두를 어텐션 기반 의존성과 일치시키는 어텐션 기반 디노이징 및 최적화 프레임워크인 AGDO를 제안합니다. AGDO는 어텐션 구조를 기반으로 디노이징 순서를 결정하고, 지도 미세 조정(supervised fine-tuning)과 강화 학습(reinforcement learning) 과정에서 어텐션에 중요한 토큰들을 강조합니다. 수학 및 코딩 벤치마크에서의 실험은 AGDO가 추론 성능을 일관되게 향상시키며, dLLM의 최첨단 사후 훈련 방법들보다 우수한 성능을 보임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

완전 무작위 마스킹을 넘어: 확산 언어 모델을 위한 어텐션 기반 디노이징 및 최적화

요약

핵심 포인트

댓글