안전한 것인가, 아니면 단순히 무능력한 것인가? 휴대폰 사용 에이전트의 안전성 평가에 대한 재고찰
요약
본 기사는 휴대폰 사용 에이전트의 '안전성' 평가 방식에 대한 근본적인 재고찰을 제기합니다. 기존 평가는 에이전트가 위험을 인식하고 안전한 행동을 선택했는지, 아니면 단순히 능력이 부족하여 유해한 결과를 초래했는지를 구분하지 못하는 한계가 있습니다. 이를 해결하기 위해 130개 이상의 앱에서 수집된 실제 상호작용 데이터를 기반으로 하는 'PhoneSafety'라는 새로운 벤치마크를 제안하며, 위험 순간의 다음 결정을 안전/부적절 행동 여부로 분리하여 평가하는 방법을 제시합니다.
핵심 포인트
- 기존 에이전트 평가는 안전한 결과와 능력이 부족해서 발생한 결과를 구분하지 못하는 문제가 있습니다.
- 에이전트의 '안전성'은 단순히 유해하지 않은 결과만으로는 충분히 입증되지 않습니다.
- 제안된 PhoneSafety 벤치마크는 실제 휴대폰 상호작용 데이터(130개+ 앱)를 활용하여 위험 순간의 다음 행동을 안전/부적절로 세분화합니다.
- 평가는 에이전트가 실제로 위험을 인식하고 의도적으로 안전한 결정을 내렸는지 여부를 분리해야 합니다.
휴대폰 사용 에이전트가 해를 피할 때, 그것이 안전성을 보여주는 것일까요, 아니면 단순히 행동할 능력이 없는 것을 보여주는 것일까요? 기존의 평가는 종종 이를 구분하지 못합니다. 유해한 결과는 에이전트가 위험을 인식하고 안전한 행동을 선택했기 때문일 수도 있고, 화면을 이해하는 데 실패했거나 관련 행동을 전혀 실행하지 못했기 때문일 수도 있습니다. 이러한 경우들은 서로 다른 원인을 가지며 각기 다른 해결책을 요구하지만, 현재의 벤치마크는 종종 이들을 작업 성공, 거부(refusal), 또는 최종 유해한 결과로 통합합니다. 우리는 PhoneSafety라는 문제에 접근하며, 이는 130개 이상의 앱에서 수집된 실제 휴대폰 상호작용 중 700개의 안전이 중요한 순간들로 구성된 벤치마크입니다. 각 인스턴스는 위험한 순간의 다음 결정을 분리하여 간단한 질문을 던집니다: 모델이 안전한 행동을 취하는가, 아니면 부적절한 행동을 취하는가
더 시각적이고 운영적으로 까다로운 화면에서 행동할 수 있는 능력입니다. 전반적으로, 무해한 결과만으로는 안전의 증거로 간주하기에 충분하지 않습니다. 전화 사용 에이전트를 평가하려면 안전하지 않은 판단과 행동 불능을 분리해야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기