RedAct: 절차적 기술 보호를 위한 에이전트 능력 추적 데이터의 비식별화
요약
에이전트의 실행 추적 데이터에서 개인의 절차적 기술 유출을 방지하기 위한 RedAct 프레임워크를 제안합니다. CapTraceBench 벤치마크를 통해 보안 성능을 평가하며, 감사 증거를 보존하면서도 핵심 기술 노출을 효과적으로 차단합니다.
핵심 포인트
- 에이전트 실행 추적 데이터 내 절차적 기술 유출 위험 식별
- CapTraceBench: 75개 작업 및 154개 기술 기반 벤치마크 구축
- RedAct: 감사 증거를 보존하며 기술 전이를 낮추는 비식별화 프레임워크
- 행동 워터마크 삽입을 통해 높은 탐지율(최대 100%) 달성
사용자들은 에이전트의 동작을 관찰하고, 실패를 진단하며, 책임성을 보장하기 위해 실행 추적(execution traces)에 의존합니다. 이러한 추적 데이터에는 도구 호출(tool invocations), 중간 결정, 오류 복구 로직을 포함한 풍부한 절차적 세부 사항이 담겨 있습니다. 그러나 이러한 세부 사항은 개인적인 절차적 기술(procedural skills)을 노출할 수 있으며, 하위 방법론(downstream methods)이 모델 가중치(model weights)나 기술 파일에 접근하지 않고도 핵심 공식, 임계값(thresholds), 전략을 복구할 수 있게 합니다. 이러한 위험을 정량화하고 보호 성능을 평가하기 위해, 우리는 7개 영역에 걸쳐 75개의 특화된 장기 작업(long-horizon tasks)과 154개의 선별된 기술로 구성된 벤치마크인 extsc{CapTraceBench}를 구축합니다. 또한, 우리는 보호된 핵심 정보를 국소화하고, 검증에 필수적인 증거(verifier-critical evidence)를 보존하면서 추적 데이터를 재작성하며, 하위 출처 분석(downstream provenance analysis)을 위한 행동 워터마크(behavioral watermarks)를 삽입하는 보호된 추적 공개 프레임워크인 extsc{RedAct} https://github.com/XuShuwenn/RedAct를 소개합니다. 대표적인 추적 재사용 방법론들에 대해, extsc{RedAct}는 감사 증거(audit evidence)를 보존하면서도 정규화된 기술 전이(normalized skill transfer, NST)를 원본 추적 데이터의 44.767.1%에서 기술이 없는 베이스라인(no-skill baseline) 미만으로 감소시킵니다. 독립적인 행동 워터마크는 최대 1.9%의 오경보율(false alarm rate)로 93.6100.0%의 진양성 탐지율(true detection)을 달성합니다. 이러한 결과는 공개된 에이전트 추적을 보안 인터페이스(security interfaces)로 규정하며, 선택적 비식별화(selective redaction)가 감사 증거를 제거하지 않고도 절차적 능력 유출을 줄일 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기