양방향 경사 최적화를 통한 대규모 언어 모델(LLM)의 데이터 기여도 산정
요약
양방향 경사 최적화를 활용하여 LLM의 출력에 대한 학습 데이터의 기여도를 산정하는 새로운 방법론을 제안합니다. 경사 상승법과 하강법을 통해 모델을 섭동시켜 데이터의 사실적 및 스타일적 기여도를 측정하며, 기존 방식보다 뛰어난 해석 가능성을 제공합니다.
핵심 포인트
- 양방향 경사 최적화 기반의 데이터 기여도 산정(TDA) 방법론 제안
- 사실적 기여도와 스타일적 기여도 모두 측정 가능
- 기존 영향력 지표 대비 우수한 성능 입증
- LLM의 거버넌스 및 모델 해석 가능성 향상
대규모 언어 모델 (LLMs)이 다양한 애플리케이션에 점점 더 많이 배치됨에 따라, 거버넌스 (governance), 책임성 (accountability), 그리고 데이터 출처 (data provenance)에 대한 중요한 질문들이 제기되고 있습니다. 모델의 출력에 어떤 학습 데이터가 가장 큰 영향을 미쳤는지 이해하는 것은 여전히 근본적인 미해결 과제로 남아 있습니다. 우리는 역방향 공식 (inverse formulation)을 확장하여 자기회귀 (auto-regressive) LLM을 위한 학습 데이터 기여도 산정 (training data attribution, TDA)을 통해 이 과제를 해결합니다. 즉, '만약 모델이 학습 과정에서 생성된 출력을 보았다면 학습 데이터는 어떻게 영향을 받았을까?'라는 질문을 다룹니다. 우리의 방법론은 생성된 텍스트 샘플에 대해 양방향 경사 최적화 (bidirectional gradient optimization; 경사 상승법 (gradient ascent) 및 경사 하강법 (gradient descent))를 사용하여 베이스 모델 (base model)을 섭동 (perturb)시키고, 그 결과로 발생하는 학습 샘플 전체의 손실 (loss) 변화를 측정합니다. 우리의 프레임워크는 임의의 데이터 입도 (data granularity)에서의 기여도 산정을 지원하여, 사실적 기여도 (factual attribution)와 스타일적 기여도 (stylistic attribution)를 모두 가능하게 합니다. 우리는 알려진 데이터셋을 가진 사전 학습된 모델 (pretrained models)에서 기존 베이스라인 모델들과 비교하여 우리의 방법을 평가하였으며, 영향력 지표 (influence metrics)에 관한 이전 연구들보다 뛰어난 성능을 보임을 입증했습니다. 이를 통해 책임 있는 AI 시스템의 필수 요구 사항인 모델 해석 가능성 (model interpretability)을 향상시킵니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기