본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 23:46

그래프 인지 적응형 노이징을 통한 사실 기반 및 편집 감수성 그래프-시퀀스 생성

요약

본 논문은 그래프-시퀀스 생성(G2S)의 두 가지 주요 문제점인 사실적 근거와 편집 감수성 문제를 해결하기 위해 '그래프 인지 언어 모델(DLM4G)'이라는 비오토리그레시브 확산 프레임워크를 제안합니다. DLM4G는 입력 그래프에 조건부 반복 정제를 적용하며, 적응형 노이징 전략을 사용하여 엔티티 및 관계 토큰의 노이즈에 맞춰 변조함으로써 그래프 구조 보존과 지역적 업데이트 능력을 개선했습니다. 실험 결과, DLM4G는 기존 오토리그레시브 모델이나 확산 기반 모델 대비 사실적 근거와 편집 감수성 모두에서 일관되게 우수한 성능 향상을 입증했으며, 분자 캡셔닝 등 다양한 분야로의 일반화 가능성을 보여주었습니다.

핵심 포인트

  • G2S 문제 해결을 위해 비오토리그레시브 확산 프레임워크인 DLM4G를 제안함.
  • 적응형 노이징 전략을 사용하여 그래프 구조 보존 및 지역적 업데이트 능력을 개선함.
  • 기존 오토리그레시브 모델 대비 사실적 근거(FGT)와 편집 감수성(ESR)에서 높은 성능 향상을 달성함.
  • 대규모 LLM 기반의 G2S 생성에 대한 강력한 대안을 제시하며, 분자 캡셔닝 등 다양한 과학 분야로 적용 가능함을 입증함.

그래프-시퀀스 생성 (G2S) 을 위한 미세 조정된 오토리gresiv 모델은 종종 사실적 근거 (factual grounding) 와 편집 감수성 (edit sensitivity) 에서 어려움을 겪습니다. 이러한 문제를 해결하기 위해, 입력 그래프에 조건부인 반복적 정제를 통해 텍스트를 생성하는 비오토리gresiv 확산 프레임워크를 제안합니다. 이를 그래프 인지 언어 모델 (Diffusion Language Model for Graphs, DLM4G) 이라 명명합니다. 그래프 구성 요소 (엔티티/관계) 와 해당 시퀀스 토큰을 정렬함으로써, DLM4G 는 적응형 노이징 전략을 사용합니다. 제안된 전략은 토큰별 디노이징 에러를 신호로 사용하여 엔티티 및 관계 토큰의 노이즈에 적응적으로 변조 (modulate) 하여 그래프 구조 보존을 개선하고, 그래프 편집 하에서 지역적 업데이트 (localized updates) 를 가능하게 합니다. 세 가지 데이터셋에서 평가된 결과, DLM4G 는 동일한 분할로 훈련된 경쟁력 있는 G2S 확산 베이스라인보다 표면 형태 기반 및 임베딩 기반 지표 모두에서 일관되게 우수한 성능을 보였습니다. 또한, 미세 조정된 오토리gresiv 베이스라인 (예: T5-Large) 보다 최대 12 배 큰 모델 대비 더 뛰어난 성능을 보여주며, 제로샷 LLM 전이 베이스라인과도 최대 127 배 큰 모델 대비 경쟁력 있는 성능을 발휘합니다. 가장 강력한 미세 조정된 PLM 베이스라인에 비해 DLM4G 는 사실적 근거 (FGT@0.5) 를 +5.16% 향상시키고 편집 감수성 (ESR) 을 +7.9% 개선했습니다. 최상의 확산 베이스라인과 비교할 때는 FGT@0.5 에서 +3.75%, ESR 에서 +23.6% 의 향상을 기록했습니다. 우리는 또한 분자 캡셔닝 실험을 통해 텍스트 기반 그래프를 넘어선 적용 가능성을 입증하여, 이 방법론이 과학적 G2S 생성에 대한 일반성을 보여주었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0