그들을 본 적이 있나요? 대규모 언어 모델(LLM) 심문을 통한 엔티티 수준의 멤버십 추론 (Entity-level Membership
요약
LLM이 특정 샘플이 아닌 실제 세계의 엔티티(Entity)에 대한 지식을 축적하는지 확인하는 '엔티티 수준 멤버십 추론' 방법을 제안합니다. 블랙박스 설정에서 심문 전략을 통해 모델이 특정 인물 정보를 학습했는지 판별하며, 기존 방식보다 높은 성능을 입증했습니다.
핵심 포인트
- 샘플 단위가 아닌 엔티티 단위의 멤버십 추론 프레임워크 제안
- 라벨 전용 블랙박스 설정에서 5가지 심문 전략 구체화
- 인물 엔티티 실험 결과 최대 0.97 AUC 달성
- 기존 베이스라인 대비 균형 정확도 최대 17.5% 향상
대규모 언어 모델 (LLMs)은 개인정보 유출 및 저작권 준수에 대한 우려를 지속적으로 불러일으키고 있습니다. 멤버십 추론 (Membership inference)은 이러한 위험을 평가하는 핵심 도구이지만, 기존 연구들은 주로 특정 샘플이나 샘플 기반 데이터 단위가 학습에 사용되었는지 여부에 초점을 맞추고 있습니다. 우리는 LLM이 인간의 기억과 유사한 행동을 보인다고 주장합니다. 즉, LLM이 특정 샘플을 그대로 암기하지는 않더라도, 흩어져 있는 언급들을 통해 실제 세계의 엔티티 (entity)에 대한 지식을 축적하고 드러낼 수 있다는 것입니다. 이러한 비유를 바탕으로, 우리는 LLM이 엔티티 관련 정보에 노출되었는지 확인하기 위해 인간 인터뷰 대상자처럼 심문(interrogated)될 수 있는지 조사하고자 합니다. 이 질문에 착안하여, 우리는 타겟 엔티티와 관련된 정보가 LLM 학습에 사용되었는지 여부를 결정하는 엔티티 수준의 멤버십 추론 (entity-level membership inference)을 제안합니다. 우리는 생성된 텍스트만 관찰 가능한 실제적인 라벨 전용 블랙박스 (label-only black-box) 설정에서 이 과제를 연구합니다. 우리는 단서 (clue), 입력 (input), 모델 제약 조건 (model constraints) 하에서 이 과제를 공식화하고, 실행 가능성을 위한 필요충분조건을 수립하며, 이 공식화에 기반하여 다섯 가지 심문 전략을 구체화합니다. 이 전략들은 제한된 엔티티 단서를 사용하여 프롬프트 (prompts)를 구성하고, 엔티티 관련 응답을 유도하며, 생성된 텍스트 간의 의미론적 특징 (semantic features)으로부터 멤버십을 추론합니다. 우리는 엔티티 수준의 데이터셋을 구축하고, 최신 샘플 수준 라벨 전용 방법론들을 엔티티 수준 설정에 맞게 조정하여 베이스라인 (baselines)으로 사용합니다. 인물 엔티티에 대한 실험 결과, 우리의 방법론은 최대 0.97의 AUC를 달성하였으며, 가장 잘 조정된 베이스라인 대비 균형 정확도 (Balanced Accuracy)에서 6.0%~17.5%의 성능 향상을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기