마스크 언어 흐름 모델 (Masked Language Flow Models)
요약
마스크 언어 흐름 모델(MLFM)은 기존 흐름 언어 모델(FLM)의 다단계 추론 한계를 극복하기 위해 마스킹 메커니즘을 통합한 새로운 연구입니다. 연속적 확률 보간법을 통해 조건부 생성을 가능하게 하며, 사전 학습된 MDM을 효율적으로 변환할 수 있습니다.
핵심 포인트
- FLM의 다단계 추론 한계를 해결하기 위해 마스킹 통합
- 연속적 확률 보간법을 통한 조건부 생성 구현
- 사전 학습된 MDM을 MLFM으로 가볍게 적응 가능
- GSM8K 및 MT-Bench에서 추론 및 지시 이행 성능 입증
마스크 확산 모델 (Masked Diffusion Models, MDMs)은 빠르고 병렬적인 언어 생성을 약속하지만, 이들의 역전이 (reverse transition)는 토큰 위치별로 분해됩니다. 이는 병렬 생성이 가장 큰 효율성 이득을 제공해야 하는 소수 단계 샘플링 (few-step sampling) 체제에서 무너지는 근사치입니다. 흐름 언어 모델 (Flow Language Models, FLMs)은 유클리드 공간 (Euclidean space)에 표현된 깨끗한 시퀀스로 노이즈를 운송하는 연속적인 흐름 (continuous flow)을 학습함으로써 이러한 한계를 우회하며, 단일 단계 생성을 위해 증류 (distilled)될 수 있는 흐름 맵 (flow map)을 유도합니다. 그러나 이는 FLM이 생성 과정에서 모든 토큰을 디코딩해야 하므로, 다단계 추론 (multi-step reasoning)을 요구하는 복잡한 작업을 FLM에게 문제로 만듭니다. 이를 해결하기 위해, 우리는 부분적으로 마스킹된 시퀀스와 깨끗한 시퀀스를 연결하는 연속적 확률 보간법 (continuous stochastic interpolant)을 사용하여 FLM에 마스킹을 통합한 마스크 언어 흐름 모델 (Masked Language Flow Models, MLFMs)을 소개합니다. 이러한 설계는 연속적 흐름을 통한 조건부 생성 (conditional generation)을 가능하게 하며, 사전 학습된 MDM을 간단하고 가벼운 적응 (adaptation)을 통해 MLFM으로 변환할 수 있게 합니다. 이러한 유연성을 활용하여, 우리는 다단계 추론을 더 잘 지원하기 위해 연속적 노이즈 제거 (continuous denoising)와 신뢰할 수 있는 토큰의 이산적 언마스킹 (discrete unmasking)을 교대로 수행하는 새로운 샘플러를 제안합니다. 우리는 GSM8K 및 MT-Bench에서 우리의 접근 방식을 평가하였으며, 흐름 기반 언어 모델이 다운스트림 추론 및 지시 이행 (instruction-following) 작업을 해결할 수 있도록 확장 가능하다는 것을 처음으로 발견했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기