arXiv논문2026. 06. 04. 13:15

STRIDE: 서브셋 섭동(Subset Perturbations)으로부터의 희소 복구(Sparse Recovery)를 통한 학습 데이터

요약

LLM의 학습 데이터 귀속(TDA) 문제를 해결하기 위해 활성화 공간에서 데이터의 효과를 모델링하는 STRIDE 프레임워크를 제안합니다. 기존의 그래디언트 기반 방식보다 10배 빠르며, 압축 센싱을 활용해 개별 데이터의 영향력을 효율적으로 복구합니다.

핵심 포인트

파라미터 대신 활성화 공간의 기능적 효과를 모델링
희소 복구(Sparse recovery)를 통한 데이터 영향력 추적
기존 방식 대비 10배 빠른 계산 속도 달성
데이터 선택 및 오염 탐지 등 실용적 활용 가능성 검증

학습 데이터 귀속 (Training Data Attribution, TDA)은 모델의 예측을 해당 학습 데이터로 추적하는 것을 목표로 합니다. TDA의 표준 방식(Gold standard)은 인과적 개입 (Causal interventions)에 의존하여, 데이터가 추가되거나 제거될 때 모델이 어떻게 변화하는지를 관찰하는 것이지만, 대규모 언어 모델 (Large Language Models, LLMs)의 경우 반복적인 재학습은 계산적으로 매우 어렵습니다. 결과적으로, 대부분의 접근 방식은 그래디언트 (Gradients)를 사용하여 파라미터 공간 (Parameter space)에서 이러한 효과를 근사합니다. 그러나 수십억 개의 파라미터에 걸쳐 그래디언트를 추적하는 것은 비용이 지나치게 많이 들 뿐만 아니라 국소적 근사 (Local approximations)에 의존한다는 한계가 있습니다. 본 연구에서는 패러다임의 전환을 제안합니다. 즉, 파라미터 변화를 추정하는 대신, 활성화 공간 (Activation space)에서 학습 데이터의 기능적 효과 (Functional effect)를 모델링합니다. 우리는 압축 센싱 (Compressive sensing)의 정신을 담아 TDA를 희소 복구 (Sparse recovery) 문제로 공식화하는 프레임워크인 STRIDE (Steering-based Training Data Influence Decomposition)를 소개합니다. STRIDE는 데이터 서브셋 (Data subsets) 학습으로 인해 발생하는 행동 변화를 모방하는 경량화된 "스티어링 연산자 (Steering operators)"를 학습합니다. 이러한 연산자가 테스트 예측을 어떻게 섭동 (Perturb)시키는지 측정함으로써, 희소 선형 분해 (Sparse linear decomposition)를 통해 개별 학습 사례의 영향력을 복구합니다. STRIDE는 LLM 사전 학습 (Pre-training) 귀속 분야에서 최첨단 (State-of-the-art) 성능을 달성하는 동시에, 기존 기술보다 10배($13 imes$) 더 빠릅니다. 나아가 우리는 데이터 선택 (Data selection), 데이터 오염 (Data contamination), 그리고 정성적 분석 (Qualitative analysis)을 포함한 다운스트림 애플리케이션 (Downstream applications)을 통해 그 실용적 유용성을 검증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

STRIDE: 서브셋 섭동(Subset Perturbations)으로부터의 희소 복구(Sparse Recovery)를 통한 학습 데이터

요약

핵심 포인트

댓글