arXiv논문2026. 06. 23. 14:30

유능하지만 부주의한: 컴퓨터 사용 에이전트(Computer-Use Agents)는 맥락적 무결성(Contextual Integrity)을

요약

컴퓨터 사용 에이전트(CUA)가 개인정보를 유출할 수 있는 맥락적 무결성 위험을 분석하고, 이를 평가하기 위한 벤치마크인 AgentCIBench를 소개합니다. 연구 결과, 15개의 주요 에이전트 중 대다수가 높은 정보 유출률을 보이며 보안 취약점을 드러냈습니다.

핵심 포인트

AgentCIBench: CUA의 맥락적 정보 유출 위험을 평가하는 새로운 프레임워크
3가지 주요 실패 모드: 시각적 인접성, 작업 모호성 과잉 공유, 수신자 불일치
실험 결과: 테스트된 에이전트의 평균 정보 유출률이 67.9%에 달함
안전한 에이전트 개발을 위한 맥락적 공개 테스트의 필요성 강조

컴퓨터 사용 에이전트(Computer-use agents, CUAs)는 이제 이메일, 캘린더, 할 일 목록과 같은 개인용 애플리케이션 전반에서 사용자를 대신하여 동작합니다. 이러한 교차 애플리케이션 접근은 유용하지만, 그동안 대체로 간과되어 온 개인정보 보호 위험을 초래하기도 합니다. 즉, 에이전트가 하나의 맥락(context)에서 작업할 때, 해당 맥락에 부적절한 다른 맥락의 정보를 가져올 수 있다는 점입니다. 이에 따라, 우리는 이러한 위험을 실행 가능하고 결정론적으로 점수가 매겨지는 시나리오로 전환하는 평가 하네스(evaluation harness)인 AgentCIBench를 소개합니다. 우리는 CUAs의 세 가지 일반적인 실패 모드를 목표로 합니다: UI 상에서 작업 대상 옆에 위치한 금지된 항목을 가져오는 시각적 인접성(visual co-location), 불충분하게 지정된 프롬프트에 대응하여 에이전트가 밀집된 개인 상태 정보를 쏟아내는 작업 모호성 과잉 공유(task-ambiguity overshare), 그리고 에이전트가 부적절한 수신자에게 콘텐츠를 보내는 수신자 불일치(recipient misalignment)입니다. 우리는 15개의 프런티어 에이전트(frontier agents)를 평가하였으며, 놀라울 정도로 높은 실패율을 발견했습니다: 15개 중 11개가 시나리오의 50% 이상에서 정보를 유출하며, 평균 유출률은 67.9%에 달했습니다. 또한 에이전트가 작업을 완료하기 위해 환경 내에서 엔드 투 엔드(end-to-end)로 동작할 때도 동일한 실패가 지속되었습니다. 우리는 더 안전한 컴퓨터 사용 에이전트의 개발을 장려하고, 맥락적 공개 테스트(contextual disclosure testing)를 배포 전 안전 점검 항목으로 자리매김하기 위해 AgentCIBench를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

유능하지만 부주의한: 컴퓨터 사용 에이전트(Computer-Use Agents)는 맥락적 무결성(Contextual Integrity)을

요약

핵심 포인트

댓글