arXiv논문2026. 06. 18. 11:43

TRAP: 작업 완료 능력 및 능동적 개인정보 추출 저항성 벤치마크

요약

에이전트의 작업 수행 능력과 개인정보 보호 사이의 트레이드오프를 평가하는 새로운 벤치마크인 TRAP을 소개합니다. 연구 결과, 기존의 프롬프트 기반 방어는 작업 정확도를 저하시키며 소프트맥스 기반 모델에서는 두 목표를 동시에 달성하기 어렵다는 불가능성 결과를 입증했습니다.

핵심 포인트

TRAP 벤치마크를 통한 에이전트의 작업 완료 및 개인정보 유출 평가
지시 이행 능력이 높을수록 개인정보 유출 위험도 증가함
프롬프트 기반 방어 방식의 한계와 트레이드오프 문제 지적
해시 키를 활용한 구조적 개인정보 필드 격리 방식 제안

에이전트(Agents)는 민감한 개인정보가 예외적인 상황이 아니라 일상적인 입력값인 문서 집약적 워크플로우(document-intensive workflows)에 점점 더 많이 배치되고 있습니다. 예를 들어, 항공권을 예약하는 에이전트는 여권 번호가 필요합니다. 이러한 환경에서 에이전트는 키보드 앞에 실제로 누가 있는지 확인할 수 없기 때문에, 응답에서 개인정보를 절대 노출하지 않으면서도 작업을 정확하게 완료하기 위해 개인정보를 사용해야 합니다. 이 두 가지 의무는 근본적인 긴장 관계에 있습니다. 작업 완료를 위해 개인정보를 사용할 수 있을 만큼 충분한 능력을 갖춘 모델은, 동일한 능력으로 인해 해당 정보를 드러내도록 유도될 수 있습니다. 작업 정확도와 개인정보 유출 사이의 트레이드오프(trade-off)를 평가하기 위해, 우리는 TRAP(Task-completion and Resistance to Active Privacy-extraction)를 소개합니다. 각 시나리오는 개인정보를 포함하는 문서, 에이전트가 개인정보 필드를 사용하여 올바른 도구(tool)를 호출하도록 요구하는 작업 쿼리(task query), 그리고 자연어로 동일한 정보를 이끌어내려는 공격 쿼리(attack query)를 포함합니다. 최첨단(frontier) 독점 모델 및 다양한 규모의 오픈 소스(open-source) 모델을 아우르는 22개 모델을 평가한 결과, 모든 모델 제품군이 무시할 수 없는 수준의 유출을 보이며, 지시 이행(instruction-following) 능력이 유출률과 상관관계가 있음을 발견했습니다. 기존의 프롬프트 기반 방어(prompt-based defenses)는 유출을 줄이지만 작업 정확도에 상당한 비용을 초래합니다. 프롬프트 최적화(Prompt optimization) 또한 이 트레이드오프에서 벗어나는 데 실패합니다. 우리는 이러한 실패가 우연이 아님을 입증합니다. 모든 소프트맥스(softmax) 기반 모델에 대해, 프롬프트 기반 방어와 같은 어떠한 소프트 제약(soft-constraint) 방어 방식도 높은 작업 성공률과 제로(zero)에 가까운 유출 확률을 동시에 달성할 수 없습니다. 이러한 불가능성 결과(impossibility result)에 착안하여, 우리는 개인정보 필드가 모델에 도달하기 전에 해시 키(hash keys)로 대체하는 구조적 개인정보 필드 격리(structural private field isolation)를 제안합니다. 이 접근 방식은 작업 정확도를 유지하면서 유출을 크게 방지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TRAP: 작업 완료 능력 및 능동적 개인정보 추출 저항성 벤치마크

요약

핵심 포인트

댓글