RIFT-Bench, 동적 레드팀 (Red-Teaming)을 통해 45개의 에이전트 시스템 테스트

요약

RIFT-Bench는 그래프 기반의 2단계 파이프라인을 통해 45개의 에이전트 AI 시스템의 보안성을 평가하는 새로운 벤치마크입니다. 탐색과 스캐닝 단계를 통해 이질적인 에이전트 아키텍처 전반에 걸쳐 자동화된 레드팀 테스트와 완화 전략 평가를 지원합니다.

핵심 포인트

그래프 기반의 2단계(탐색 및 스캐닝) 자동화 파이프라인 제공
45개의 다양한 에이전트 AI 시스템에 대한 통합 보안 비교 가능
적응형 적대적 공격 및 시스템 완화 전략에 대한 직접적인 평가 지원
공격 표면과 실패 목표를 축으로 하는 체계적인 공격 분류 체계 도입

RIFT-Bench는 그래프 기반의 2단계 파이프라인을 통해 45개의 에이전트 (Agentic) AI 시스템을 평가하며, 이질적인 아키텍처 전반에 걸쳐 통합된 보안 비교를 가능하게 합니다.

RIFT-Bench는 그래프 기반의 레드팀 (Red-Teaming) 파이프라인을 사용하여 45개의 에이전트 (Agentic) AI 시스템을 평가합니다. 2026년 6월 22일 arXiv에 발표된 이 벤치마크는 이질적인 에이전트 아키텍처 전반에 걸쳐 보안 평가를 자동화합니다.

주요 사실 (Key facts)

2026년 6월 22일 arXiv에 발표됨.
45개의 에이전트 (Agentic) AI 시스템을 평가함.
2단계 구성: 탐색 (Discovery) 및 스캐닝 (Scanning).
적응형 적대적 공격 (Adaptive adversarial attacks) 지원.
완화 전략 (Mitigation strategies) 또한 평가함.

LLM 기반의 자율적 의사결정자인 에이전트 (Agentic) AI 시스템은 기존의 대규모 언어 모델 (Large Language Models)을 넘어서는 공격 표면 (Attack surfaces)을 도입합니다. 기존의 보안 평가는 일반적으로 특정 도메인에 국한되거나 구현 방식에 종속되어 있어, 시스템 간의 교차 비교가 불가능합니다. RIFT-Bench에 따르면, 2026년 6월 22일 arXiv에 발표된 새로운 벤치마크는 동적 레드팀 (Red-Teaming)을 위한 그래프 표현 기반 방법론을 통해 이러한 격차를 해소합니다.

2단계 자동화 파이프라인 (Two-Phase Automated Pipeline)

RIFT-Bench는 두 가지 자동화된 단계로 작동합니다. 시스템 구조를 계층적 NodeSpec 표현으로 추출하는 탐색 (Discovery) 단계와, 해당 표현에 대해 적응형 적대적 공격 (Adaptive adversarial attacks)을 전개하는 스캐닝 (Scanning) 단계입니다. 이 프레임워크는 단순히 기반이 되는 LLM만을 평가하는 것이 아니라 시스템 자체를 평가하여, 다양한 구현에 걸친 45개의 에이전트 (Agentic) 시스템 전반에 대해 통합된 비교를 가능하게 합니다. 저자들은 이 접근 방식이 이질적인 에이전트 (Agentic) 아키텍처에 효과적으로 일반화됨을 입증했습니다.

공격 분류 체계 및 완화 테스트 (Attack Taxonomy and Mitigation Testing)

시스템과 공격을 넘어, RIFT-Bench는 완화 전략 (Mitigation strategies)에 대한 직접적인 평가를 지원합니다. 제안된 공격 분류 체계 (Attack taxonomy)는 적대적 영향력을 공격 표면 (Attack-surface) 축과 실패 목표 (Failure-objective) 축을 따라 조직하여, 동일한 공격이 서로 다른 목표를 가지고 인스턴스화될 수 있도록 합니다. 논문에 따르면, 이는 RIFT-Bench를 보안 평가를 위한 확장 가능한 토대로 만듭니다.

(a) Attack surface and system architecture

이 기술이 분야에서 중요한 이유

RIFT-Bench는 그 이면에 있는 LLM(대규모 언어 모델)뿐만 아니라 에이전트 시스템 (agentic system) 자체를 평가 대상으로 취급합니다. 이는 산업계의 흐름이 모델 수준의 안전성 (model-level safety)에서 시스템 수준의 보안 (system-level security)으로 변화하고 있음을 반영합니다. SciRisk-Bench (위험 차원 테스트)나 NVIDIA Blackwell Ultra 에이전트 벤치마크 (성능 중심)와 같은 기존 벤치마크들은 이러한 격차를 해결하지 못하고 있습니다. RIFT-Bench는 에이전트 아키텍처 (agentic architectures)를 위한 통합된 자동화 레드팀 (red-teaming) 프레임워크를 제공하는 최초의 사례입니다.

주목해야 할 점

GitHub에 공개될 RIFT-Bench의 코드와 데이터셋, 그리고 RIFT-Bench의 결과물을 수동 레드팀 (manual red-teaming) 결과와 비교하는 제3자 검증을 주목하십시오. AI 안전 연구소 (AI safety labs)와 기업 보안 팀의 채택 여부는 이 벤치마크가 사실상의 표준 (de facto standard)이 될지를 결정하는 신호가 될 것입니다.

출처: arxiv.org

원문 게시: gentic.news

AI 자동 생성 콘텐츠

원문 바로가기