arXiv논문2026. 05. 29. 10:48

AgentDoG 1.5: AI 에이전트의 안전 및 보안을 위한 경량화 및 확장 가능한 정렬 프레임워크

요약

AgentDoG 1.5는 오픈 월드 AI 에이전트의 안전과 보안을 위한 경량화된 정렬 프레임워크입니다. 약 1k개의 샘플만으로 소규모 모델을 학습시켜 폐쇄형 모델 수준의 성능을 구현하며, 배포 오버헤드를 획기적으로 줄였습니다.

핵심 포인트

경량화된 데이터 엔진을 통한 효율적인 에이전트 정렬
소규모 파라미터 모델로 GPT-5.4급 성능 달성
Docker 환경 배포 오버헤드 100배 감소
학습이 필요 없는 실시간 온라인 가드레일 제공
모든 모델 및 데이터셋 공개

OpenClaw와 같은 현대적인 오픈 월드 에이전트(open-world agents)는 강력한 교차 환경 실행 능력을 보여주지만, 광범위하고 새로운 안전 위험 요소를 유발합니다. 한편, 발전된 최첨단 AI 모델들은 공격 장벽을 급격히 낮추어, 현재의 에이전트 정렬(alignment) 프레임워크를 실제 환경 배포에 부적합하게 만들고 있습니다. 이러한 신규 위협에 대응하기 위해, 우리는 경량화되고 확장 가능한 에이전트 안전 정렬 프레임워크를 제안합니다. 구체적으로, 우리는 Codex 및 OpenClaw 실행 시나리오에서 발생하는 창발적 위험(emergent risks)을 수용할 수 있도록 에이전트 안전 분류 체계(taxonomy)를 업데이트합니다. 나아가, 우리는 영향력 함수 정제(influence-function purification)를 갖춘 분류 체계 기반 데이터 엔진을 구축하여, 약 1k개의 샘플만을 사용하여 경량화된 AgentDoG 1.5 변체들(0.8B, 2B, 4B, 8B 파라미터)을 학습시켰으며, 이를 통해 선도적인 폐쇄형 모델(예: GPT-5.4)과 대등한 성능을 달성했습니다. AgentDoG 1.5를 기반으로, 우리는 매우 효율적인 에이전트적 안전 SFT(Supervised Fine-Tuning) 및 RL(Reinforcement Learning) 학습 환경을 구축하였으며, 이는 Docker 수준 환경에서의 배포 오버헤드를 두 자릿수(two orders of magnitude)만큼 감소시킵니다. 마지막으로, 우리는 실시간 안전 중재를 위한 학습이 필요 없는(training-free) 온라인 가드레일(guardrail)로서 AgentDoG 1.5를 배포합니다. 광범위한 실험 결과는 AgentDoG 1.5가 다양하고 복잡한 상호작용적 에이전트 시나리오에서 최첨단(state-of-the-art) 성능을 달성함을 보여줍니다. 모든 모델과 데이터셋은 공개적으로 배포됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

AgentDoG 1.5: AI 에이전트의 안전 및 보안을 위한 경량화 및 확장 가능한 정렬 프레임워크

요약

핵심 포인트

댓글