본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 19. 11:48

NAMESAKES: 텍스트-이미지(Text-to-Image) 모델의 정체성 암기(Identity Memorization) 조사

요약

텍스트-이미지 모델이 특정 인물의 정체성을 암기하여 생성하는지 여부를 판별하는 블랙박스 행동 프로브 연구를 소개합니다. 참조 사진이나 학습 데이터 없이도 암기 여부를 구분할 수 있는 NAMESAKES 데이터셋을 제안합니다.

핵심 포인트

  • 정체성 암기 여부를 판별하는 블랙박스 행동 프로브 제안
  • 참조 사진이나 학습 데이터 없이도 암기 상태 구분 가능
  • 다양한 명성 수준을 포함한 NAMESAKES 데이터셋 구축
  • SOTA T2I 모델의 정체성 암기 예측 성능 검증

텍스트-이미지 (Text-to-image, T2I) 모델은 특정 인물의 이름이 프롬프트로 제공될 때 해당 인물의 사실적인 유사체를 생성하며, 이는 개인정보 보호 문제를 야기합니다. 그러나 생성된 얼굴이 암기된 것인지 아니면 조작된 것인지 구별하기 위해서는 현재 정답(ground-truth) 사진, 학습 데이터에 대한 접근 권한, 또는 모델 내부 구조에 대한 화이트박스 (white-box) 접근 권한이 필요하며, 이는 적용 가능성을 제한합니다. 본 연구에서는 참조 사진이나 학습 데이터에 대한 사전 지식 없이도 이러한 상태들을 구분할 수 있는 완전한 블랙박스 (black-box) 행동 프로브 (behavioral probe)를 소개합니다. 이 과업을 벤치마킹하기 위해, 우리는 다양한 명성 수준을 아우르는 공인들의 천 개 이상의 이름과 얼굴, 그리고 변형된 덜 유명한 이름들로 구성된 NAMESAKES 데이터셋을 제시합니다. 최신 SOTA (state-of-the-art) T2I 모델들을 대상으로 한 실험 결과, 우리의 프로브는 정체성 암기 (identity memorization)를 상당히 정확하게 예측하고 암기된 이름과 인식되지 않는 이름을 분리해내며, 모델 제품군 간의 차이에 대한 추가적인 통찰을 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0