arXiv논문2026. 05. 20. 11:00

자율 보안 에이전트에서의 안전 정렬 (Safety Alignment) 효과 측정

요약

본 연구는 자율 보안 에이전트의 성능 평가를 위해 기존 모델과 검열되지 않거나 Abliterated 된 파생 모델 간의 행동 차이를 분석했습니다. 30개의 로컬 취약점 분석 작업에 대한 트레이스 기반 벤치마크(1,500개 보안 트레이스 포함)를 제시했으며, Gemma 쌍은 규제가 적을 때 특히 큰 성능 향상을 보여주었습니다. 연구 결과는 자율 보안 에이전트의 안전 정렬 효과를 단순히 거부율로 측정하기보다, 거부, 안전하지 않은 동작, 도구 신뢰성, 그리고 증거 근거 확인 등 시스템 수준에서 다각적으로 측정해야 함을 시사합니다.

핵심 포인트

자율 보안 에이전트는 단일 턴 거부만으로는 성능 평가가 불가능하며, 저장소 조사 및 도구 호출 같은 트레이스 기반 분석이 필수적이다.
Gemma 쌍은 규제가 완화된 환경에서 높은 성능 향상을 보였으며, 특히 성공률과 근거 확인 점수에서 두드러진 개선을 나타냈다.
모델의 안전 정렬 효과를 측정할 때는 단순히 거부율(refusal rate)에 의존하기보다, '거부', '안전하지 않은 동작', '도구 신뢰성', '증거 근거 확인' 등 여러 요소를 분리하여 시스템 수준에서 평가해야 한다.
어려운 트리거 증명 및 패치 검증 작업은 모든 모델군에게 여전히 해결되지 않은 난제로 남아있다.

기존의 안전 정렬 (Safety-aligned) 언어 모델과 그들의 검열되지 않거나 (uncensored) Abliterated 된 파생 모델들이 자율 보안 에이전트 (autonomous security agents)로 실행될 때 다르게 행동할까요? 단일 턴 거부 (Single-turn refusal) 벤치마크로는 이 질문에 답할 수 없습니다. 보안 에이전트는 저장소(repositories)를 조사하고, 도구(tools)를 호출하며, 승인된 샌드박스 (sandboxes) 내부에서 취약점 증거를 생성해야 하기 때문입니다. 본 연구에서는 고정된 도구, 결정론적 성공 술어 (deterministic success predicates), 편집 규칙 (redaction rules), 그리고 근거 확인 (grounding checks)을 포함한 30개의 로컬 취약점 분석 작업에 대한 트레이스 기반 (trace-based) 벤치마크를 제시하며, 네 가지 기존 모델을 검열되지 않거나 Abliterated 된 파생 모델과 비교합니다: Gemma 4 31B, Gemma 4 26B A4B, Qwen2.5-Coder 7B, 그리고 Llama 3.1 8B. 해당 아티팩트 (artifact)에는 1,500개의 보안 에이전트 트레이스와 800개의 비보안 제어 트레이스가 포함되어 있습니다. Gemma 쌍(pairs)은 보안 작업에서 규제가 적을 때 큰 성능 향상을 보여주었습니다: 31B 모델의 경우 성공률이 0.7%에서 14.0%로, 26B 모델은 0.0%에서 10.7%로 상승했으며, 평균 근거 확인 (grounding) 점수도 더 높았습니다 (5점 만점에 3.27 대 3.91 및 1.64 대 4.12). 또한 31B 트레이스에서는 거부 (refusal), 동작 억제 (suppressed-action), 그리고 안전하지 않은 동작 (unsafe-action) 비율이 0.0%를 기록했습니다. 그러나 제어군 (controls)과 비-Gemma 쌍들은 보안에 특화되었거나 보편적인 규제 완화 효과를 배제합니다: Gemma의 격차는 일반적인 코딩 작업에서도 나타났으며, Qwen2.5-Coder의 성공률은 규제가 적은 파생 모델에서 더 낮았습니다 (5.3% 대 2.0%), 그리고 Abliterated 된 Llama 파생 모델은 도구 프로토콜 (tool protocol) 수행에 실패했습니다. 모든 모델군에 걸쳐, 어려운 트리거 증명 (proof-of-trigger) 및 패치 검증 (patch-verification) 작업은 여전히 해결되지 않은 상태로 남아 있습니다. 이러한 결과는 자율 보안 에이전트에서의 안전 정렬 (safety alignment) 효과를 측정할 때, 거부율 (refusal rate)을 단순히 안전 신호로 취급하기보다는 거부, 안전하지 않은 동작, 도구 신뢰성, 그리고 증거 근거 확인 (evidence grounding)을 분리하여 시스템 수준에서 측정해야 함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

자율 보안 에이전트에서의 안전 정렬 (Safety Alignment) 효과 측정

요약

핵심 포인트

댓글