LLM 에이전트 팀 보안 강화: NRT-Defense v0.4.0 내부 구조

요약

다회차(Multi-turn) LLM 에이전트의 보안 취약점을 해결하기 위한 오픈 소스 방어 프레임워크 NRT-Defense v0.4.0을 소개합니다. 컨텍스트 드리프트를 이용한 적응형 공격을 차단하기 위해 3단계 CMPE 방어 체계를 제안합니다.

핵심 포인트

다회차 공격으로 인한 핵심 안전 기능(CSF) 손실 위험 지적
실시간 메시지 분석 및 CSF 모니터링 기능 제공
CMPE 기술을 통한 문맥 인식 오도 프롬프트 엔지니어링 적용
공격 성공률을 1% 미만으로 낮추는 것을 목표로 설계

LLM 에이전트 팀 보안 강화: NRT-Defense v0.4.0

다회차(Multi-turn) 자율 LLM 에이전트는 안전이 중요한 시스템(safety-critical systems)에서 빠르게 확장되고 있습니다. 그러나 Lee et al. (2026)의 NRT-Bench 논문을 통해 주요 취약점이 노출되었습니다. 즉, 적응형 다회차 공격(adaptive multi-turn attacks)이 분리된 모델 취약점(disjoint model vulnerabilities)을 악용하여 핵심 안전 기능(Critical Safety Functions, CSFs)의 8.7%에서 12.1% 손실을 초래할 수 있다는 점입니다.

이를 해결하기 위해, 에이전트 세션을 모니터링하고 공격 성공률을 **1% 미만(<1%)**으로 낮추도록 설계된 적응형 다회차 방어 프레임워크인 NRT-Defense를 오픈 소스로 공개합니다.

위협: 컨텍스트 드리프트(Context Drift) 및 분리된 악용(Disjoint Exploits)

표준 가드레일(guardrails)은 프롬프트를 개별적으로(단일 회차, single-turn) 평가합니다. 공격자들은 이를 이용하여 악용(exploit)을 여러 대화 회차에 걸쳐 분산시킵니다. 회차가 거듭될수록 컨텍스트 드리프트(context drift)가 발생하며, 결국 에이전트 팀은 안전 격리(safety containment)를 완전히 우회하게 됩니다.

NRT-Bench 논문은 5개의 운영자 역할, 4개의 공격 채널, 6개의 핵심 안전 기능(CSFs)이 있는 시뮬레이션된 원자력 발전소 제어실에서 이를 입증했습니다. 결과는 놀라웠습니다:

지표	값
공격 성공률	8.7% — 12.1%
...

핵심 발견 사항: 모델 간의 취약점이 거의 분리(disjoint)되어 있다는 것입니다. GPT-4를 상대로 작동하는 공격이 Claude를 상대로는 작동하지 않을 수 있습니다. 이는 모델의 다양성(model diversity) 자체가 방어 수단이 될 수 있음을 의미하지만, 이는 실시간으로 공격을 탐지하고 대응할 수 있을 때만 가능합니다.

해결책: 3단계 CMPE 방어

nrt-defense는 지속적인 다중 구성 파이프라인(multi-component pipeline)을 통해 이러한 위협을 무력화합니다:

턴별 메시지 분석 (Per-Turn Message Analysis): 채널 위험도 및 턴 에스컬레이션 (turn-escalation) 지표를 평가합니다. 각 메시지는 키워드 탐지, 패턴 매칭 및 채널별 위험 가중치를 사용하여 적대적 콘텐츠 (adversarial content) 여부를 점수화합니다.
실시간 CSF 모니터링 (Real-Time CSF Monitoring): 6가지 운영 핵심 안전 기능 (critical safety functions)을 동시에 추적합니다. 위험은 턴이 진행됨에 따라 누적되며, 임계값(threshold)을 초과할 때 경고를 트리거합니다.
문맥 인식 오도 프롬프트 엔지니어링 (Context-Aware Misdirection Prompt Engineering, CMPE): 이상 징후가 감지되면 공격자에게 경고를 주는 무미건조한 거절 대신, 엔진은 다음 3단계 매트릭스를 사용하여 문맥을 동적으로 재구성합니다:
- 서문 (Preamble): 긍정적 의도를 가진 도입부 (1-2문장)
- 재구성 (Reshaping): 의미론적 노이즈 주입 (semantic noise injection)을 포함한 안전한 상세 설명
- 후속 조치 (Follow-up): 대화를 전환하기 위한 분기 질문

빠른 벤치마크 실행

이 프로젝트에는 자동화된 평가 엔진이 포함되어 있습니다. 로그를 감사하거나 터미널에서 통합된 벤치마크를 직접 실행할 수 있습니다:

nrt-audit --benchmark

이 명령은 초기 공격 성공률 (Attack Success Rate, ASR)과 완화된 임계값 (<1%)을 보여주는 자동화된 평가 테이블을 출력합니다.

특정 세션 파일을 감사할 수도 있습니다:

nrt-audit --session-path /path/to/session.json --output report.json

또는 실시간 테스트를 위해 대화형 모드로 실행할 수 있습니다:

nrt-audit --interactive

더 넓은 생태계

NRT-Defense는 종합적인 AI 보안 제품군의 일부입니다:

프로젝트	중점 사항	테스트 수
misdirection-proxy	자율 에이전트를 위한 런타임 방어	147
...

모든 프로젝트에 걸쳐 총 247개의 테스트가 수행되며, 모두 Python 3.10 및 3.11 환경에서 GitHub Actions를 통해 실행됩니다.

시작하기

pip install nrt-defense
nrt-audit --benchmark

GitHub Actions를 통해 실행되는 57개의 강력한 단위 및 통합 테스트를 지원하는 이 프로젝트는 misdirection-proxy 및 neuroimprint-detector와 함께 AGPL-3.0-or-later 라이선스 하의 종합적인 AI 보안 제품군의 일부로 자리 잡고 있습니다.

저장소(Repository): [https://github.com/amurlaniakea/nrt-defense]
작성자(Author): Pedro Sordo Martínez ([mailto:amurlaniakea@gmail.com])
논문(Paper): Lee et al. (2026) — NRT-Bench

AI 자동 생성 콘텐츠

원문 바로가기