본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 11. 23:34

Guidance는 하이퍼파라미터가 아니다: 확산 언어 모델에서 동적 제어를 학습하기

요약

본 논문은 확산 언어 모델(Diffusion Language Models)에서 사용되는 Classifier-Free Guidance (CFG) 스케일이 고정된 하이퍼파라미터라는 기존 접근 방식의 한계를 지적합니다. 저자들은 CFG 스케일 선택을 순차적인 의사 결정 문제로 재구성하고, 강화학습(RL)과 PPO 알고리즘을 사용하여 생성 과정 전체에 걸쳐 동적으로 변화하는 최적의 가이던스 궤적을 학습할 것을 제안했습니다. 실험 결과는 이러한 적응형(adaptive) 가이던스가 고정 스케일 전략보다 NLP 생성 작업에서 제어 가능성과 품질 사이의 우수한 균형을 제공함을 입증합니다.

핵심 포인트

  • 기존 CFG 방식은 가이던스 스케일을 정적인 하이퍼파라미터로 취급하여 최적화에 한계가 있다.
  • CFG 스케일 선택을 순차적 의사 결정 문제로 재구성하고, 강화학습(RL) 프레임워크를 적용했다.
  • PPO 알고리즘을 사용하여 확산 상태 변화에 기반한 동적인 가이던스 정책을 학습시켰다.
  • 제안된 적응형 가이던스는 고정 스케일 대비 NLP 생성 작업에서 제어 가능성과 품질의 균형을 개선한다.

Classifier-Free Guidance (CFG)는 확산 기반 생성 모델을 제어하는 데 널리 사용되는 메커니즘이지만, 그 가이던스 스케일은 일반적으로 생성 과정 전체에 걸쳐 고정된 하이퍼파라미터로 취급됩니다. 이러한 정적 설계는 최적의 제어 가능성 및 품질 트레이드오프를 제공하지 못하는데, 이는 특히 NLP 도메인에서 작업별, 그리고 확산 프로세스의 서로 다른 단계마다 최적의 가이던스 정도가 다르기 때문입니다. 우리는 CFG 스케일 선택을 순차적인 의사 결정 문제로 재구성하고, 강화학습(RL)을 통해 동적 가이던스 궤적을 학습할 것을 제안합니다. 구체적으로, 우리는 가이던스 스케일을 확산 상태의 변화에 기반하여 각 생성 단계에서 선택되는 이산 제어 액션으로 모델링하고, 작업 수준 보상 하에서 Proximal Policy Optimization (PPO)을 사용하여 정책을 최적화합니다. 이산 확산 언어 모델을 사용한 세 가지 제어된 NLP 생성 작업에 대한 실험 결과는 적응형 가이던스가 고정 스케일 전략보다 일관되게 제어 가능성과 생성 품질 사이의 더 나은 균형을 달성함을 보여줍니다. 학습된 정책에 대한 추가 분석은 작업별로 뚜렷하고 해석 가능한 가이던스 궤적을 밝혀내며, 가이던스를 정적인 설계 선택이 아닌 동적인 제어 프로세스로 다루는 것의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0