AgentDoG 1.5: 에이전트 동작을 위한 소형 인라인 가드 모델 (Small Inline Guard Models)

무엇인가 (What): 2026년 5월에 게시된 arXiv 프리프린트(preprint)인 AgentDoG 1.5는 에이전트 옆에 위치하여 각 동작(도구 호출(tool call), 셸 명령(shell command), 코드 실행 요청(code-execution request))이 실행되기 전, 이를 안전한지 또는 위험한지 스크리닝하는 소형 인라인 가드 모델 (small inline guard models) (0.8B–8B 파라미터) 제품군입니다.

왜 필요한가 (Why): 모든 프로덕션 에이전트는 자신의 동작을 감시할 무언가가 필요합니다. 치명적인 세 가지 요소(private data, untrusted input, a way to act)가 결합되면 에이전트는 해로운 방향으로 유도될 수 있으며, 가드 모델은 이를 잡아내는 스크린 역할을 합니다.

이전 방식과의 차이 (vs prior): 일반적인 스크린은 대규모 폐쇄형 안전 모델 (large closed safety model) (GPT급) 또는 동작마다 실행되는 무거운 샌드박스 검사기(sandboxed checker)입니다. AgentDoG는 단 **~1,000개의 정제된 샘플 (purified samples)**로 학습된 모델을 통해, 배포 오버헤드(deployment overhead)를 약 100배 줄이면서도 해당 포착률(catch rate)과 대등한 성능을 기록했다고 보고합니다.

다음과 같이 생각해보세요

베테랑의 사건 기록부를 공부한 신입 문지기.

              에이전트 동작이 문에 도달함
             (도구 호출 / 셸 / 코드 실행)
                            │
...

에이전트 동작 (agent action) = 들어오겠다고 요청하는 문 앞의 방문객 (도구 호출 또는 셸 명령)
가드 모델 (guard model) = 안전한 방문객은 통과시키고 위험한 방문객은 실시간으로 차단하는 신입
폐쇄형 안전 모델 (closed safety model) = 베테랑 팀장 — 똑같이 예리하지만, 급여를 지급하기에는 비용이 많이 듦
~1,000개의 학습 샘플 (~1,000 training samples) = 가장 교육적인 사건들만 담고 있는 얇은 사건 기록부
영향력 함수 정제 (influence-function purification) = 신입에게 아무런 가르침도 주지 못한 사건 파일들을 버리는 것

빠른 용어 사전

가드 모델 (Guard model) — 작업을 수행하는 에이전트 LLM과는 별개로, 에이전트의 입력과 동작을 위험 여부에 따라 스크리닝하는 **별도의 전용 분류기 (separate, dedicated classifier)**입니다. 루프 내에 인라인(inline)으로 존재하며 동작당 허용(allow) 또는 차단(block) 결정을 반환합니다. Agent Engineering → Output Filters를 참조하세요.

치명적인 삼중주 (Lethal trifecta) — 에이전트를 위험하게 만드는 세 가지 요소의 조합: 개인 데이터 (private data) 접근 권한, 신뢰할 수 없는 콘텐츠 (untrusted content) 노출, 그리고 **데이터 유출 채널 (exfiltration channel)**입니다. 가드 모델 (guard model)은 이 연결 고리를 끊는 한 가지 방법입니다. AI Agents → The Lethal Trifecta를 참조하세요.

영향력 함수 (Influence functions) — 각 학습 예시가 모델에 실제로 얼마나 도움이 되는지를 추정하는 방법입니다. AgentDoG는 이를 사용하여 가치가 낮은 샘플을 제거함으로써 약 1,000개의 고신호 (high-signal) 사례만 남기는 "정제 (purification)" 단계를 수행합니다.

분류 체계 기반 데이터 엔진 (Taxonomy-guided data engine) — 구조화된 위험 카테고리 목록으로부터 학습 예시를 합성하는 파이프라인입니다. AgentDoG의 분류 체계는 단순한 텍스트 수준의 프롬프트 공격뿐만 아니라 코드 실행 (code-execution) 위험을 명시적으로 다루도록 업데이트되었습니다.

SFT + RL — 지도 미세 조정 (Supervised fine-tuning, 레이블이 지정된 예시로부터 학습) 및 그 뒤를 잇는 **강화 학습 (reinforcement learning, 환경 내 보상으로부터 학습)**입니다. AgentDoG는 가드 모델이 고립된 프롬프트가 아닌 현실적인 동작 흔적 (action traces)을 볼 수 있도록 "에이전트 안전 (agentic safety)" SFT+RL 설정에서 학습시킵니다.

심층 방어 (Defense-in-depth) — 단일 실패가 치명적이지 않도록 독립적인 필터들을 계층화하는 방식입니다: 입력 필터, 출력 필터, 정책 점검, 페일 세이프 (fail-safe) 기본값 등이 포함됩니다. 저렴한 가드 모델을 사용하면 더 많은 계층을 추가하는 비용 부담을 줄일 수 있습니다. Agent Engineering → Defense-in-Depth를 참조하세요.

뉴스. 2026년 5월 29일, 연구진은 에이전트 안전을 위한 경량 정렬 프레임워크인 AgentDoG 1.5를 발표했습니다. 이 프레임워크는 영향력 함수 정제 (influence-function purification)를 포함하며, (현재 코드 실행 위험을 다루는) 분류 체계 기반 데이터 엔진을 사용하여 약 1,000개의 샘플로 0.8B, 2B, 4B, 8B 파라미터 규모의 가드 모델을 학습시킵니다. 논문에 따르면, 에이전트 위험 스크리닝 성능이 GPT-5.4와 같은 선도적인 폐쇄형 모델 (closed models)과 대등한 수준이면서도, Docker 수준의 배포 오버헤드를 약 두 자릿수 (two orders of magnitude) 가량 절감했다고 보고했습니다. 프리프린트 읽기 →

경비원이 있는 문을 상상해 보십시오. 배달원, 계약업체, 혹은 초대를 받았다고 주장하는 사람 등 모든 방문자는 문 앞에서 멈춰 서야 하며, 경비원은 단 한 번의 결정을 내립니다: 들어오게 할 것인가, 아니면 돌아가게 할 것인가. 이것이 바로 에이전트 시스템에서 **가드 모델 (guard model)**이 수행하는 역할입니다. 에이전트가 동작(action)을 생성하면 — 이 도구를 호출하거나, 이 쉘 명령어를 실행하거나, 이 코드를 실행하는 등의 동작 — 해당 동작이 실제 세계에 도달하기 전에, 작고 전용화된 모델이 이를 검토합니다. 문 앞에 서 있는 이 신입 경비원은 보안 책임자가 아닙니다. 이들은 안전한 동작은 통과시키고 위험한 동작은 빠르게 차단하는 것만이 유일한 기술인 0.8B에서 8B 규모의 모델입니다. 값비싼 대안은 문 앞에 베테랑 책임자를 배치하는 것입니다. 즉, 매우 예리하지만 모든 동작마다 대기시키기에는 비용이 훨씬 더 많이 드는 거대 폐쇄형 안전 모델 (large closed safety model)을 사용하는 것입니다.

신입 경비원을 유능하게 만드는 것은 뇌의 크기가 아니라 사례집(casebook)입니다. AgentDoG의 가드들은 수백만 개의 예시로 학습되지 않았습니다. 대신 약 1,000개의 예시로 학습되었습니다. 분류 체계 기반의 데이터 엔진 (taxonomy-guided data engine)은 에이전트 위험 요소의 구조화된 목록으로부터 후보 사례들을 합성하며, 결정적으로 이 분류 체계는 제어되는 에이전트가 가장 큰 피해를 입힐 수 있는 영역인 코드 실행 (code execution)까지 확장됩니다. 그다음 **영향력 함수 (influence functions)**를 통해 합성된 사례 중 실제로 모델을 변화시키는 사례가 무엇인지 추정하고, 나머지 사례들은 버립니다. 이는 실제 교훈을 준 세 개의 사건 파일은 보관하고, 일상적이었던 백 개의 파일은 폐기하는 방식과 같습니다. 이렇게 정제된 데이터 세트는 가드 모델을 SFT (Supervised Fine-Tuning, 지도 미세 조정) + RL (Reinforcement Learning, 강화학습) 루프 내에서 학습시키며, 이 과정에서 모델은 고립된 프롬프트가 아닌 현실적인 동작 추적 (action traces)을 보여줍니다.

계층적 방어 (layered-defense) 관점에서 가드 모델 (guard model)은 에이전트 루프 (agent loop) 내에 위치하는 **입력 및 출력 필터 (input and output filter)**입니다. 이는 치명적인 세 가지 요소 (lethal trifecta) 중 하나를 차단하는 구체적인 방법입니다. 즉, 에이전트가 개인 데이터를 보유하고 신뢰할 수 없는 콘텐츠를 읽더라도, 가드는 도구 호출 (tool call)을 통해 데이터를 유출하려는 동작을 거부할 수 있습니다. 가드 모델은 비용이 저렴하기 때문에, 모든 동작에 대해 실행하면서도 다른 방어 계층을 추가할 여력이 있으며, 이것이 바로 심층 방어 (defense-in-depth)의 핵심입니다. 여러분이 결정해야 할 설계 선택 사항은 가드가 불확실한 상황에 처했을 때 어떻게 행동할 것인가 하는 점입니다. 페일 세이프 (fail-safe, 차단 후 요청)는 보수적인 기본 설정이며, 페일 오픈 (fail-open, 허용)은 가동 시간 (uptime)을 위해 안전성을 절충하는 방식입니다.

가드 크기 비교

가드 변체 (Guard variant)	파라미터 (Params)	~4-bit 점유 공간	적합한 위치
AgentDoG-0.8B	~0.8B	~0.4 GB (유도값: 0.5 byte/param)	동일 GPU 내 사이드카 (Sidecar), 또는 CPU
...

~100배 차이가 실제로 발생하는 이유

탐지율 (catch rate)을 고정했을 때 — 논문의 주장은 소형 가드가 해당 지점에서 폐쇄형 모델 (closed model)과 동등한 성능을 보인다는 것입니다 — 승부처는 Docker 수준의 배포 오버헤드 (deployment overhead), 즉 상시 실행되는 서비스와 각 화면(screen)이 필요로 하는 샌드박스 (sandbox)에 있습니다. 대략적인 계산을 해보겠습니다 (예시용 점유 공간이며, 프리프린트(preprint) 논문은 이러한 절대값이 아닌 오버헤드 비율을 보고합니다). 프런티어 규모의 폐쇄형 안전 모델 (closed safety model)은 수백억 개의 파라미터로 구동되며 — FP16 기준 약 ~100 GB 규모 — 일반적으로 별도의 샌드박스 서비스로 배포됩니다. 4-bit 기준 AgentDoG-8B는 약 8B × 0.5 byte ≈ 4 GB이며, 0.8B 변체는 0.5 GB 미만입니다. 이는 별도의 서비스가 아닌 에이전트 옆에서 프로세스 내 사이드카 (in-process sidecar)로 실행될 수 있을 만큼 충분히 작습니다. 별도의 Docker 샌드박스 서비스와 프로세스 내 사이드카 사이의 이러한 차이가 바로 논문에서 보고한 약 2단계 규모(~100배)의 배포 오버헤드 절감이며, 이것이 몇 개를 샘플링하는 대신 모든 동작을 검사하는 것을 경제적으로 가능하게 만듭니다.

문제점은, 그리고 소형 가드 모델이 공짜 점심이 아닌 이유는 다음과 같습니다: 약 1,000개의 사례로 학습된 모델은 자신의 분류 체계 (Taxonomy) 내에 있는 위험 요소만을 알기 때문에, 커버리지 공백 (Coverage gaps)이 실제로 존재하며, 결연한 공격자는 모델이 인식하지 못하는 동작을 탐색할 수 있습니다. 이는 camouflage-injection detection gap 설명에서 다루는 것과 동일한 회피 압력 (Evasion pressure)입니다. GPT-5.4와 대등하다는 수치는 논문에 보고된 결과이며, 독립적인 재현 결과가 아닙니다. 또한 "벤치마크 분류 체계상 유사하다"는 표현은 "실제 환경(In the wild)에서도 그만큼 안전하다"는 의미보다 좁은 범위입니다. AgentDoG를 역량 범위 설정 (Capability scoping) 및 실제 데이터 흐름 검토 (Data-flow review)를 대체하는 수단이 아닌, 저렴하고 상시 작동하는 하나의 계층 (Layer) 으로 취급하십시오.

더 자세히 알아보기: 에이전트 엔지니어링 (Agent Engineering) → 계층형 가드레일 (Layered Guardrails) → 출력 필터 (Output Filters)

FAQ

에이전트 동작을 위한 가드 모델이란 무엇인가요?

가드 모델은 에이전트의 루프 내에 인라인 (Inline)으로 위치하여, 각 동작(도구 호출, 셸 명령, 코드 실행 요청 등)이 실행되기 전에 안전한지 또는 위험한지를 검사하는 작고 전용화된 분류기 (Classifier)입니다. 이는 작업을 수행하는 에이전트 LLM과는 별개이며, 오직 허용/차단 결정만을 내리는 것이 유일한 역할입니다. AgentDoG 1.5는 이러한 가드 모델을 0.8B, 2B, 4B, 8B 파라미터 규모로 학습시켜, 검사 과정이 무거운 폐쇄형 안전 모델 대신 저렴한 사이드카 (Sidecar)로서 실행될 수 있도록 합니다.

왜 AgentDoG는 약 1,000개의 학습 샘플만 필요로 하나요?

이는 에이전트 리스크(코드 실행 포함)의 구조화된 카탈로그로부터 후보 사례를 합성하기 위해 분류 체계 가이드 데이터 엔진 (taxonomy-guided data engine)을 사용하며, 그 후 영향 함수 (influence functions)를 적용하여 모델을 측정 가능하게 개선하는 예시만 남기고 나머지는 폐기합니다. 그 결과, 수백만 개의 샘플 대신 약 1,000개의 샘플로 구성된 작고 신호가 높은