MuPPET: 다자간 대화에서 LLM 어시스턴트의 맥락적 프라이버시를 위한 벤치마크
요약
다자간 대화 환경에서 LLM 에이전트가 개인 정보를 유출할 위험을 측정하기 위한 새로운 벤치마크인 MuPPET을 소개합니다. 실험 결과, 기존 모델들은 일대일 대화보다 다자간 환경에서 훨씬 더 많은 정보를 유출하며, 특히 소규모 오픈 웨이트 모델에서 취약성이 두드러졌습니다.
핵심 포인트
- 다자간 대화 환경을 위한 프라이버시 벤치마크 MuPPET 제안
- 다자간 설정에서 모델의 정보 유출 위험이 일대일 설정보다 높음
- 프런티어 모델 및 소규모 오픈 웨이트 모델의 프라이버시 취약성 확인
- 기존 방어 기제의 한계 및 참여자 추적 문제 지적
LLM 에이전트(LLM agents)는 그룹 채팅과 같이 개별 사용자를 대신하여 민감한 개인 데이터를 처리하며 다자간 환경(multi-party environments)에 점점 더 많이 배치되고 있습니다. 이러한 에이전트가 개인 정보를 공개할 경우, 모든 그룹 구성원에게 동시에 전달됩니다. 모든 개인 정보 조각이 그룹 내의 모든 수신자에게 적절해야 하므로, 이러한 위험은 일대일(one-to-one) 설정보다 구조적으로 제어하기가 더 어렵습니다. 그러나 기존의 모든 맥락적 프라이버시(contextual privacy) 벤치마크는 단일 대화자(single-interlocutor) 설정만을 고려하고 있어, 다자간 프라이버시 위험은 측정되지 않은 상태로 남아 있습니다. 우리는 다자간 대화에서의 맥락적 프라이버시를 위한 벤치마크인 MuPPET (Multi-Party Privacy Exposure Testing)을 소개합니다. 우리의 실험 결과에 따르면, 모델들은 일대일 평가가 시사하는 것보다 다자간 설정에서 실질적으로 더 많은 정보를 유출합니다. 프런티어 모델(Frontier models)은 취약하며, 민감한 데이터와 함께 로컬 배포를 위해 자주 선호되는 더 작은 오픈 웨이트(open-weights) 모델들은 더욱 그러합니다. 기존의 맥락적 프라이버시 방어 기제들은 부분적인 보호만을 제공하고, 유용성(utility)을 저하시키며, 근본적인 참여자 추적(party-tracking) 문제를 해결하지 못합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기