arXiv논문2026. 06. 02. 13:07

SeClaw: 자율 에이전트 평가를 위한 명세 기반 보안 태스크 합성

요약

자율 LLM 에이전트의 보안 리스크를 평가하기 위한 새로운 프레임워크 SeClaw를 소개합니다. 명세 기반의 보안 태스크 합성 기술과 실행 기반의 평가 방식을 결합하여, 에이전트의 행동 궤적을 추적하고 보안 실패를 체계적으로 진단합니다.

핵심 포인트

명세 기반 보안 태스크 합성 기술 도입
실행 과정의 궤적을 인식하는 보안 평가 지원
표준화된 테스트베드인 SeClaw docker 제공
자율 에이전트의 보안 실패 측정 및 진단 토대 마련

자율 LLM 에이전트(Autonomous LLM agents)는 도구, 파일, 메모리 및 외부 서비스에 접근하는 상태 유지 환경(stateful environments)에서 점점 더 많이 작동하고 있습니다. 이러한 능력은 복잡한 실제 워크플로우를 가능하게 하지만, 기존의 평가 방식으로는 포착하기 어려운 보안 리스크(security risks)를 유발하기도 합니다. 현재의 에이전트 보안 벤치마크(benchmarks)는 종종 수동으로 큐레이션된 태스크에 의존하며, 새롭게 등장하는 위협에 대한 범위가 제한적이고, 안전하지 않은 행동을 초래하는 실행 과정보다는 주로 최종 결과에 초점을 맞춥니다. 우리는 자율 에이전트를 위해 명세 기반 보안 태스크 합성(specification-driven security task synthesis)과 실행 기반 보안 평가(execution-based security evaluation)를 결합한 프레임워크인 SeClaw를 소개합니다. 명세 기반 보안 태스크 합성은 구조화된 리스크 명세(risk specifications)로부터 보안 태스크의 확장 가능하고 제어 가능한 구축을 가능하게 하며, SeClaw docker는 다양한 안전 리스크 시나리오 하에서 에이전트의 행동을 평가하기 위한 표준화된 테스트베드(testbed)를 제공합니다. 이 벤치마크는 리소스, 사용자 태스크, 환경 및 에이전트 고유의 행동에서 발생하는 리스크를 다루며, 최종 응답을 넘어 안전하지 않은 행동에 대한 궤적 인식 평가(trajectory-aware assessment)를 지원합니다. 체계적인 태스크 합성(task synthesis)과 재현 가능한 보안 평가(security evaluation)를 연결함으로써, SeClaw는 자율 LLM 에이전트의 보안 실패를 측정, 진단 및 비교하기 위한 실질적인 토대를 제공합니다. 코드는 https://github.com/seclaw-eval/seclaw-eval 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

SeClaw: 자율 에이전트 평가를 위한 명세 기반 보안 태스크 합성

요약

핵심 포인트

댓글