arXiv논문2026. 06. 23. 13:31

AgentLens: 멀티턴 코딩 에이전트를 위한 기계론적 부분 공간을 통한 해석 가능한 안전 스티어링 (Safety Steering)

요약

멀티턴 코딩 에이전트의 안전성을 확보하기 위해 기계론적 해석 가능성을 적용한 AgentLens 프레임워크를 제안합니다. 은닉 표현 수준에서 유해한 상태를 탐지하고 부분 공간 개입을 통해 위험 행동을 완화하며, 이를 검증하기 위한 MAS 벤치마크를 함께 도입했습니다.

핵심 포인트

멀티턴 코딩 에이전트의 동적 위험을 탐지하는 화이트박스 방어 프레임워크 제안
은닉 표현의 10차원 부분 공간 개입을 통한 단계별 안전 스티어링 수행
LLaMA-3.1, Qwen-2.5, Gemma-2를 활용한 MAS 벤치마크 구축
기존 가드레일 대비 정밀한 실행 제어 및 선제적 위험 예측 가능성 제시

대규모 언어 모델 (LLMs) 기반의 코딩 에이전트 (Coding agents)는 놀라운 자율 능력을 보여주지만, 외부 환경과의 멀티턴 (multi-turn) 상호작용 과정에서 상당한 안전 및 오용 위험을 초래하기도 합니다. 기존의 안전 메커니즘은 주로 외부 가드레일 (guardrails)에 의존하며, 이는 실행 중 미세한 행동 제어를 수행하는 능력이 제한적입니다. 한편, LLM 안전을 위한 최근의 기계론적 해석 가능성 (mechanistic interpretability) 방법론들은 대부분 단일턴 (single-turn) 또는 탈옥 (jailbreak) 스타일의 QA 설정에 국한되어 있어, 멀티턴 에이전트 실행 과정에서 진화하는 위험 역학을 포착하는 능력이 제한적입니다. 본 논문에서는 내부적인 관점에서 멀티턴 코딩 에이전트의 안전성을 조사합니다. 우리는 코딩 에이전트를 위해 런타임 안전 탐지 및 표현 수준 (representation-level) 완화를 수행하는 화이트박스 (white-box) 방어 프레임워크인 AgentLens (Mechanistic Subspace Intervention and Steering)를 제안합니다. 기존의 에이전트 가드레일과 달리, AgentLens는 단계별 (step-level) 은닉 표현 (hidden representations)으로부터 유해한 실행 상태를 탐지하고, 단일 레이어 내의 10차원 부분 공간 (subspace)에 개입함으로써 안전하지 않은 행동을 완화합니다. 본 연구를 지원하기 위해, 우리는 LLaMA-3.1-8B, Qwen-2.5-7B, 그리고 Gemma-2-9B를 사용하여 194개 작업에 걸쳐 포괄적으로 주석이 달린 멀티턴 실행 궤적을 포함하는 Mechanistic Agent Safety (MAS) 벤치마크를 도입합니다. 광범위한 실험을 통해 AgentLens가 강력한 안전 탐지 성능을 달성하고, 선제적 위험 예측 (lookahead risk anticipation)을 위한 예비 증거를 제공하며, 코딩 에이전트의 유해한 행동을 실질적으로 감소시킨다는 것을 보여줌으로써, 동적인 LLM 에이전트 안전성에 기계론적 해석 가능성을 적용하기 위한 토대를 마련했습니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/EddyLuo1232/AgentLens

AI 자동 생성 콘텐츠

원문 바로가기

AgentLens: 멀티턴 코딩 에이전트를 위한 기계론적 부분 공간을 통한 해석 가능한 안전 스티어링 (Safety Steering)

요약

핵심 포인트

댓글