LLM은 학습 데이터를 유출할 수 있는가, 하지만 정말로 그러고 싶어 하는가? LLM 암기 현상에 대한 성향 인식 평가
요약
LLM의 학습 데이터 암기 현상을 평가하기 위해 성향 인식 프레임워크인 PropMe와 추적 파이프라인 SimpleTrace를 제안합니다. 연구 결과, 모델은 강제적인 공격 상황에서는 데이터를 유출할 수 있으나 일반적인 상황에서의 유출 성향은 낮음을 확인했습니다.
핵심 포인트
- PropMe 프레임워크를 통한 암기 능력과 성향의 격차 분석
- SimpleTrace를 활용한 대규모 코퍼스 기반의 결정론적 데이터 귀속
- 접두사 공격과 비적대적 설정 간의 암기 신호 차이 발견
- 지속적 사전 학습이 모델의 암기 및 암기 성향을 감소시킴
- 암기 감사 시 최악의 추출 가능성과 일반적 유출 성향을 모두 보고할 것을 권장
대규모 언어 모델 (LLMs)은 학습 데이터를 재현할 수 있지만, 기존의 암기 (memorization) 평가는 모델이 일반적인 사용 상황에서 암기 행동을 하는지보다는, 모델이 그렇게 하도록 강제될 수 있는지 여부를 주로 측정합니다. 우리는 접두사 기반의 능력 공격 (capability attacks)과 비적대적 평가 (non-adversarial evaluations)를 대조하는 암기 평가를 위한 성향 인식 프레임워크인 PropMe를 소개합니다. 우리는 기존 함수에 적용하여 성향 지표 (propensity metrics)를 생성할 수 있는 지표 변환 (metric transformation)을 제안합니다. 나아가 우리는 infini-gram을 기반으로 구축된 경량 추적 파이프라인인 SimpleTrace를 도입하여, 모델의 생성물을 대규모 학습 코퍼스 (training corpora)에 결정론적으로 귀속시키고, 그대로 (verbatim), 거의 그대로 (near-verbatim), 그리고 성향 변환된 (propensity-transformed) 암기 지표를 계산합니다. 두 가지 언어의 두 가지 데이터셋인 Common Pile과 Dynaword에서 두 개의 완전 공개 모델인 Comma와 DFM Decoder를 평가한 결과, 능력 (capability)과 성향 (propensity) 사이의 일관된 격차를 발견했습니다. 접두사 공격은 일반적이거나 데이터셋 특화된 프롬프트보다 실질적으로 더 강력한 암기 신호를 유도하는 반면, 성향 점수는 전반적으로 낮게 유지되었습니다. 따라서 모델은 직접적으로 유도될 때 학습 데이터를 드러낼 수 있지만, 더 일반적인 비적대적 설정에서는 거의 그러지 않습니다. 또한 우리는 Comma로부터 지속적 사전 학습 (continual pre-training)된 DFM Decoder가 Common Pile에 대한 암기 및 암기 성향이 감소함을 확인하였으며, 이는 후속 학습이 부분적으로 다른 데이터를 강조할 때 암기 능력이 감소할 수 있음을 확인시켜 줍니다. 우리의 결과는 암기 감사 (memorization audits)가 이 현상에 대한 보다 포괄적인 시각을 갖기 위해 최악의 추출 가능성 (worst-case extractability)과 일반적인 유출 성향 (ordinary leakage propensity)을 모두 보고해야 함을 시사하며, 이를 권장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기