본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 12:02

무엇이 가장 먼저 언마스킹되는가? 그래프-텍스트 생성(Graph-to-Text Generation)을 위한 확산 모델(Diffusion

요약

그래프-텍스트 생성(Graph-to-Text)을 위한 마스크 확산 언어 모델(MDLM)의 생성 궤적을 분석한 연구입니다. MDLM이 엔티티를 우선 생성하는 특성을 발견하고, SFT의 실패 모드를 해결하기 위한 람다 스케일 구조적 디코딩 기법을 제안합니다.

핵심 포인트

  • MDLM은 엔티티를 가장 먼저, 구조적 토큰을 마지막에 생성함
  • SFT가 문장 종결 토큰을 조기에 고정하여 정보 누락을 유발함을 식별
  • 추론 시점의 람다 스케일 구조적 디코딩으로 BLEU-4 점수 9.4 향상
  • Graph Transformer를 통합한 Graph-LLaDA 모델 제안

우리는 그래프-텍스트 생성(graph-to-text generation)을 위한 마스크 확산 언어 모델(Masked Diffusion Language Models, MDLMs)에 대한 최초의 체계적인 연구를 제시합니다. 우리는 MDLM 생성 궤적(generation trajectories), 즉 반복적인 디코딩(iterative decoding) 과정에서 토큰이 언마스킹(unmasked)되는 순서를 분석하였으며, 텍스트를 선형적으로 생성하는 자기회귀(autoregressive) LLM과 달리 MDLM은 자연스럽게 엔티티(entities)를 가장 먼저 우선시하고, 그 다음으로 관계어(relational words)와 기능어(function words)를 생성하며, 구조적 토큰(structural tokens)을 마지막에 해결한다는 것을 발견했습니다. 나아가 우리는 이전에 기록되지 않았던 지도 미세 조정(Supervised Fine-Tuning, SFT)의 실패 모드(failure mode)를 식별했습니다. SFT는 디코딩 궤적의 초기에 문장 종결 구조 토큰을 조기에 고정(anchoring)함으로써 이러한 전략을 방해하며, 이는 출력 길이를 효과적으로 고정시켜 정보 누락이나 환각(hallucination)을 초래할 수 있습니다. 이를 해결하기 위해 우리는 훈련이 필요 없는 추론 시점의 수정 방식인 람다 스케일 구조적 디코딩(lambda-scaled structural decoding)을 제안하며, 이는 구조적 토큰의 신뢰도(confidence)에 가중치를 낮추어 +9.4 BLEU-4를 회복합니다. 마지막으로, 우리는 관계형 그래프 구조를 명시적으로 통합하기 위해 LLaDA의 디코딩 과정에 그래프 트랜스포머(Graph Transformer) 인코더를 통합한 Graph-LLaDA를 소개합니다. LAGRANGE 데이터셋에 대한 교차 데이터셋 평가 결과, 이전의 베이스라인(baselines)들은 데이터셋 특유의 패턴에 과적합(overfit)되는 반면, LLM 및 MDLM 기반 방식은 훨씬 더 뛰어난 일반화(generalize) 성능을 보임을 확인했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0