안전한 것인가, 아니면 단순히 무능력한 것인가? 휴대폰 사용 에이전트의 안전성 평가에 대한 재고찰

휴대폰 사용 에이전트가 해를 피할 때, 그것이 안전성을 보여주는 것일까요, 아니면 단순히 행동할 능력이 없는 것을 보여주는 것일까요? 기존의 평가는 종종 이를 구분하지 못합니다. 유해한 결과는 에이전트가 위험을 인식하고 안전한 행동을 선택했기 때문일 수도 있고, 화면을 이해하는 데 실패했거나 관련 행동을 전혀 실행하지 못했기 때문일 수도 있습니다. 이러한 경우들은 서로 다른 원인을 가지며 각기 다른 해결책을 요구하지만, 현재의 벤치마크는 종종 이들을 작업 성공, 거부(refusal), 또는 최종 유해한 결과로 통합합니다. 우리는 PhoneSafety라는 문제에 접근하며, 이는 130개 이상의 앱에서 수집된 실제 휴대폰 상호작용 중 700개의 안전이 중요한 순간들로 구성된 벤치마크입니다. 각 인스턴스는 위험한 순간의 다음 결정을 분리하여 간단한 질문을 던집니다: 모델이 안전한 행동을 취하는가, 아니면 부적절한 행동을 취하는가

더 시각적이고 운영적으로 까다로운 화면에서 행동할 수 있는 능력입니다. 전반적으로, 무해한 결과만으로는 안전의 증거로 간주하기에 충분하지 않습니다. 전화 사용 에이전트를 평가하려면 안전하지 않은 판단과 행동 불능을 분리해야 합니다.

Insights

안전한 것인가, 아니면 단순히 무능력한 것인가? 휴대폰 사용 에이전트의 안전성 평가에 대한 재고찰

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인