arXiv논문2026. 06. 15. 03:48

Influcoder: 디코더의 기울기 영향 순위를 인코더로 추출하여 데이터 기여도 분석

요약

본 논문은 대규모 데이터셋의 샘플 기여도를 분석하는 Data Attribution(DA) 방법론을 다룹니다. 기존 영향 함수 기반 방법론들이 처리 속도와 저장 공간 효율성 문제로 인해 실제 구현에 어려움이 있었는데, 이를 해결하기 위해 Influcoder라는 빠르고 비용 효율적인 접근 방식을 제안합니다.

핵심 포인트

데이터 기여도 분석(DA)은 고품질 데이터셋 구축의 핵심입니다.
기존 영향 함수 기반 방법론은 대규모 환경에서 비효율적입니다.
Influcoder는 빠른 속도와 낮은 비용으로 DA를 가능하게 합니다.

LLM(Large Language Models) 역량 증가와 함께, 학습 데이터 내 샘플을 필터링하여 고품질 데이터셋을 구축하려는 노력이 커지고 있습니다. 일반적으로 Data Attribution (DA) 방법론은 훈련 데이터셋의 개별 샘플이 모델이 특정 출력을 생성하도록 사전에 조건화(precondition)할 수 있는 정도를 추정하는 것을 목표로 합니다. 예를 들어, LLM을 훈련시킨 후 어떤 샘플들이 유해한 행동의 원인이 될 수 있는지에 관심이 있을 수 있습니다. 많은 방법론들이 영향 함수(influence functions)라는 패러다임을 통해 이러한 조건화를 정량화합니다. 이 계열의 방법론들은 기능적으로는 효과적이지만, 대규모 데이터셋에 실제로 구현하기에는 필요한 처리 속도와 저장 공간 효율성이 부족합니다. 이에 우리는 규모가 큰 환경에서 영향 기반 Data Attribution을 위한 빠르고 비용 효율적인 접근 방식인 Influcoder라는 방법을 제안합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Influcoder: 디코더의 기울기 영향 순위를 인코더로 추출하여 데이터 기여도 분석

요약

핵심 포인트

댓글