Boiling the Frog: 에이전트 안전성을 위한 멀티턴(Multi-Turn) 벤치마크

배경. 언어 모델을 위한 전통적인 안전성 벤치마크(Safety benchmarks)는 생성된 텍스트를 평가합니다. 즉, 모델이 유해한 언어를 출력하는지, 편향을 재현하는지, 또는 해로운 지시를 따르는지를 평가합니다. 모델이 에이전트(Agents)로 배포될 때, 안전 관련 대상은 시스템이 무엇을 말하는가에서 시스템이 환경 내에서 무엇을 수행하는가로 전환되며, 프롬프팅(Prompting) 하에서의 모델 응답을 평가하는 것만으로는 인공지능(AI)이 제기하는 안전 문제를 해결하기에 더 이상 충분하지 않습니다. 최근의 발전은 대규모 언어 모델(Large Language Models)을 에이전트로 평가하는 벤치마크의 부상을 목격했습니다. 우리는 이 연구 흐름에 기여하고자 합니다.

접근 방식. 우리는 기업 및 사무 환경에 배포된 도구 사용 AI 모델이 점진적 공격(Incremental attacks)에 취약한지 평가하는 벤치마크인 Boiling the Frog를 소개합니다. 각 시나리오는 무해한 작업 공간 편집으로 시작하여 나중에 위험을 초래하는 요청을 도입합니다. 이 벤치마크는 상태 유지 멀티턴 평가(Stateful multi-turn evaluation)에 초점을 맞춥니다. 체인(Chains)은 지속적인 작업 공간을 노출시키고, 턴 시퀀스(Turn sequence) 내의 통제된 위치에 위험을 초래하는 페이로드(Payload)를 배치하며, 결과적으로 생성된 아티팩트 상태(Artifact state)가 안전하지 않게 되는지를 점수화합니다. 시나리오는 Boiling the Frog 리스크, AI Act 부속서 I(Annex I) 및 부속서 III(Annex III)의 고위험 컨텍스트, 그리고 EU AI Act의 범용 AI(GPAI)에 관한 실무 규범(Code of Practice)에 근거한 3단계 운영 리스크 분류 체계(Taxonomy)를 통해 구성됩니다.

결과. 9개 모델 패널을 대상으로 한 결과, 종합적인 엄격 공격 성공률(Strict Attack Success Rate, ASR)은 44.4%입니다. 모델별 ASR은 Claude Haiku 4.5의 20.5%부터 Gemini 3.1 Flash Lite의 92.9%까지 다양하며, Seed 2.0 Lite 또한 80% 이상을 기록했습니다. 체인 카테고리 수준의 평균 ASR은 실무 규범(Code of Practice)의 제어 상실(Loss-of-control) 시나리오에서 93.3%에 달합니다.

Insights

Boiling the Frog: 에이전트 안전성을 위한 멀티턴(Multi-Turn) 벤치마크

요약

핵심 포인트

댓글

중국이 답이었다 — 테슬라 6월 판매 8만9091대 올해 최고, 모델Y 현지 1위 | 7/8 테슬라 브리핑

짐 크레이머, 강세장 재도래의 큰 위험은 이란 전쟁이 아니다

AI 비디오에 대한 일반적인 인식과 Reactor의 더 큰 방향성

HF Viewer에 수많은 새로운 기능이 추가되었습니다!

짐 크레이머, 강세장 재도래의 큰 위험은 이란 전쟁이 아니다

AI 비디오에 대한 일반적인 인식과 Reactor의 더 큰 방향성

HF Viewer에 수많은 새로운 기능이 추가되었습니다!