arXiv논문2026. 06. 19. 11:48

NAMESAKES: 텍스트-이미지(Text-to-Image) 모델의 정체성 암기(Identity Memorization) 조사

요약

텍스트-이미지 모델이 특정 인물의 정체성을 암기하여 생성하는지 여부를 판별하는 블랙박스 행동 프로브 연구를 소개합니다. 참조 사진이나 학습 데이터 없이도 암기 여부를 구분할 수 있는 NAMESAKES 데이터셋을 제안합니다.

핵심 포인트

정체성 암기 여부를 판별하는 블랙박스 행동 프로브 제안
참조 사진이나 학습 데이터 없이도 암기 상태 구분 가능
다양한 명성 수준을 포함한 NAMESAKES 데이터셋 구축
SOTA T2I 모델의 정체성 암기 예측 성능 검증

텍스트-이미지 (Text-to-image, T2I) 모델은 특정 인물의 이름이 프롬프트로 제공될 때 해당 인물의 사실적인 유사체를 생성하며, 이는 개인정보 보호 문제를 야기합니다. 그러나 생성된 얼굴이 암기된 것인지 아니면 조작된 것인지 구별하기 위해서는 현재 정답(ground-truth) 사진, 학습 데이터에 대한 접근 권한, 또는 모델 내부 구조에 대한 화이트박스 (white-box) 접근 권한이 필요하며, 이는 적용 가능성을 제한합니다. 본 연구에서는 참조 사진이나 학습 데이터에 대한 사전 지식 없이도 이러한 상태들을 구분할 수 있는 완전한 블랙박스 (black-box) 행동 프로브 (behavioral probe)를 소개합니다. 이 과업을 벤치마킹하기 위해, 우리는 다양한 명성 수준을 아우르는 공인들의 천 개 이상의 이름과 얼굴, 그리고 변형된 덜 유명한 이름들로 구성된 NAMESAKES 데이터셋을 제시합니다. 최신 SOTA (state-of-the-art) T2I 모델들을 대상으로 한 실험 결과, 우리의 프로브는 정체성 암기 (identity memorization)를 상당히 정확하게 예측하고 암기된 이름과 인식되지 않는 이름을 분리해내며, 모델 제품군 간의 차이에 대한 추가적인 통찰을 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

NAMESAKES: 텍스트-이미지(Text-to-Image) 모델의 정체성 암기(Identity Memorization) 조사

요약

핵심 포인트

댓글