arXiv논문2026. 05. 29. 11:27

LLMSurgeon: 대규모 언어 모델(LLMs)의 데이터 혼합 상태 진단

요약

LLMSurgeon은 LLM의 사전 학습 데이터 혼합 상태를 사후에 진단하는 새로운 프레임워크를 제안합니다. 모델이 생성한 텍스트만을 활용하여 데이터의 도메인 분포를 추정하며, 레이블 이동 가정을 기반으로 한 역문제 해결 방식을 사용합니다.

핵심 포인트

데이터 혼합 수술(DMS) 개념 공식화
분류기 출력을 활용한 도메인 분포 추정 프레임워크 제안
보정된 혼동 행렬을 통한 체계적인 도메인 혼동 교정
검증용 평가 스위트인 LLMScan 도입

대규모 언어 모델(LLMs)의 사전 학습(Pretraining) 데이터 혼합은 모델의 행동, 능력 및 실패 모드를 형성하는 "디지털 DNA"를 구성합니다. 그러나 이러한 구성은 공개되는 경우가 드물어, 데이터 조합이나 출처에 대한 사후 감사(Post-hoc auditing)를 수행하기 어렵습니다. 본 연구에서는 $\textbf{데이터 혼합 수술 (Data Mixture Surgery, DMS)}$을 공식화합니다. 즉, 대상 LLM에서 생성된 텍스트만을 사용하여, 미리 정의된 분류 체계(Taxonomy)에 따른 사전 학습 코퍼스(Corpus)의 도메인 수준 분포를 추정하는 것입니다. 우리는 DMS를 레이블 이동(Label-shift) 가정하에서의 역문제(Inverse problem)로 정의하는 강력한 프레임워크인 $\textbf{LLMSurgeon}$을 제안합니다. LLMSurgeon은 분류기(Classifier)의 출력을 직접 집계하는 대신, 보정된 $\textit{소프트(soft)}$ 혼동 행렬(Confusion matrix)을 추정하고 제약 조건이 있는 역문제를 해결하여 체계적인 도메인 혼동을 교정하고 잠재적인 혼합 사전 확률(Latent mixture prior)을 복원합니다. 평가를 위해, 우리는 투명한 사전 학습 혼합을 가진 오픈 소스 LLM들로 구축된 레시피 검증 가능 평가 스위트인 $\textbf{LLMScan}$을 도입합니다. LLMScan 전반에 걸쳐, LLMSurgeon은 고정된 프로토콜 하에서 높은 충실도로 도메인 혼합을 복원합니다. 우리의 연구는 훈련 데이터에 대한 접근 권한 없이도 파운데이션 모델(Foundation models)의 디지털 DNA를 감사할 수 있는 실용적인 사후 접근 방식을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLMSurgeon: 대규모 언어 모델(LLMs)의 데이터 혼합 상태 진단

요약

핵심 포인트

댓글