본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 12:29

G-Loss: 언어 모델의 그래프 기반 미세 조정

요약

본 논문은 기존의 언어 모델 미세 조정 손실 함수들이 지역적 근방에만 의존하는 한계를 지적하며, 전역적인 의미 구조를 포착하기 위해 그래프 기반의 새로운 손실 함수인 G-Loss를 제안합니다. G-Loss는 문서 유사도 그래프를 구축하고 준지도 레이블 전파를 통합하여 모델이 더 구별 가능하고 견고한 임베딩을 학습하도록 유도합니다. 다양한 하류 분류 작업(감성 분석, 주제/뉴스 분류 등) 벤치마크에서 G-Loss가 기존 방식보다 빠른 수렴 속도와 높은 분류 정확도를 달성했음을 입증했습니다.

핵심 포인트

  • 기존 언어 모델 손실 함수는 지역적 근방에만 의존하여 전역적인 의미 구조를 포착하는 데 한계가 있다.
  • G-Loss는 문서 유사도 그래프와 준지도 레이블 전파를 결합한 그래프 가이드드 손실 함수이다.
  • G-Loss는 모델이 더 구별 가능하고 견고한 임베딩을 학습하도록 유도하여 성능 향상을 가져온다.
  • MR, R8/R52, Ohsumed, 20NG 등 다양한 분류 작업에서 G-Loss가 기존 방식보다 우수한 정확도와 빠른 수렴 속도를 보였다.

BERT 와 같은 사전 학습된 언어 모델을 미세 조정하는 데 사용되는 전통적인 손실 함수 (예: 교차 엔트로피, 대조적, 삼중항, 그리고 지도 대조적 손실) 는 지역 근방 내에서만 작동하여 전역적 의미 구조를 고려하지 못합니다. 우리는 임베딩 다양체 내의 구조적 관계를 활용하기 위해 준지도 레이블 전파를 통합한 그래프 가이드드 손실 함수인 G-Loss 를 제안합니다. G-Loss 는 전역적 의미 관계를 포착하는 문서 유사도 그래프를 구축하여, 모델이 더 구별 가능하고 견고한 임베딩을 학습하도록 유도합니다. 우리는 MR (감성 분석), R8 과 R52 (주제 분류), Ohsumed (의료 문서 분류), 그리고 20NG (뉴스 분류) 를 포함하는 주요 하류 분류 작업을 다루는 다섯 가지 벤치마크 데이터셋에서 G-Loss 를 평가했습니다. 대부분의 실험 설정에서 G-Loss 는 전통적인 손실 함수로 미세 조정된 모델보다 더 빠른 수렴 속도를 보이며, 의미적으로 일관된 임베딩 공간을 생성하여 더 높은 분류 정확도를 달성합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0