X요약2026. 06. 06. 13:51

컴퓨터 사용 에이전트를 위한 궤적 수준의 안전 평가 및 방어 모델 프레임워크

요약

컴퓨터 사용 에이전트의 안전성을 확보하기 위해 단일 명령어가 아닌 전체 조작 궤적을 분석하는 새로운 프레임워크를 제안합니다. 공개 정보를 기반으로 위협을 발굴하고 OpenClaw를 통해 실제 공격 궤적을 생성하여 안전 라벨링을 수행합니다.

핵심 포인트

단일 명령어가 아닌 전체 조작 궤적 기반의 위험 분석
공개 정보 기반의 새로운 위협 발굴 및 공격 태스크 전환
OpenClaw를 활용한 실제 실행 궤적 생성 및 안전 라벨링

컴퓨터 사용 에이전트 (Computer-using Agent)를 위한 안전 탐지 프레임워크로, 단일 명령어를 보는 것에 그치지 않고 전체 조작 궤적 (Trajectory)에서 점진적으로 누적되는 위험을 분석합니다. 이 프레임워크는 공개 정보에서 새로운 위협을 발굴하고, 이를 실행 가능한 공격 태스크로 전환한 뒤, OpenClaw를 사용하여 실제 궤적을 생성함으로써 안전 라벨링 (Safety Labeling)을 수행할 수 있습니다. https://t.co/k9c9TPrr3r

AI 자동 생성 콘텐츠

원문 바로가기

컴퓨터 사용 에이전트를 위한 궤적 수준의 안전 평가 및 방어 모델 프레임워크

요약

핵심 포인트

댓글