언어적 방화벽: 멀티 에이전트 시스템 라우팅에서의 방어 수단으로서의 기하학
요약
멀티 에이전트 시스템(MAS)에서 에이전트의 역량을 텍스트 기반 프록시가 아닌 능동적 테스트로 검증하는 ANTAP 아키텍처를 제안합니다. ANTAP은 비텍스트적 대수적 투영을 통해 에이전트의 실제 능력을 추출하여, 설명 조작이나 백도어를 통한 보안 공격을 효과적으로 방어합니다.
핵심 포인트
- 기존 텍스트 기반 라우팅의 보안 취약점 및 역량 불일치 문제 지적
- ANTAP: 동적 질의를 통해 에이전트 역량을 비텍스트적 연산자로 추출하는 프레임워크
- 언어적 방화벽 구축을 통해 설명 기반 주입 공격에 대해 압도적인 방어 성능 입증
- 적응형 임베딩 공격에 대해서도 기존 방식 대비 높은 탄력성 확보
대규모 언어 모델 (LLMs)의 급격한 통합은 전문화된 에이전트들이 복잡한 워크플로우를 실행하기 위해 협업하는 멀티 에이전트 시스템 (Multi-Agent Systems, MAS)의 진화를 이끌었습니다. 이러한 환경에서의 효과적인 오케스트레이션 (orchestration)을 위해서는 가장 적합한 에이전트에게 작업을 효율적으로 할당할 수 있는 강력한 라우팅 (routing) 메커니즘이 필요합니다. 그러나 기존의 라우터들은 에이전트의 역량을 측정하기 위해 텍스트 기반의 자기 기술 (self-descriptions)부터 정적 대리 표현 (static surrogate representations)에 이르기까지, 검증되지 않은 프록시 (proxies)에 근본적으로 의존합니다. 이러한 비경험적 데이터에 대한 의존은 에이전트가 투영하는 프로필과 실제 운영 능력 사이에 심각한 격차를 만들어내며, 심각한 보안 취약점을 유발합니다. 악의적인 에이전트는 자신의 숙련도를 쉽게 허위로 기재하거나, 표준적인 외부 분석 및 정적 표현 학습 (representation-learning) 기술을 모두 회피하는 은밀한 백도어 (backdoors)를 숨길 수 있습니다. 본 연구에서는 간접적인 프록시를 버리고 능동적인 역량 테스트를 채택하는 평가 기반 라우팅 아키텍처인 ANTAP (Automatic Non-Textual Agent Picker)를 소개합니다. ANTAP은 에이전트에게 동적으로 질의하여 실제 역량을 경험적으로 확인함으로써, 성능을 공유된 의미 공간 (semantic space) 내의 고정된 행동 연산자 (behavioral operators)로 추출합니다. 추론 (inference) 시점에 라우팅은 순수하게 비텍스트적인 대수적 투영 (algebraic projection)을 통해 수행되며, 이는 메타데이터 기반 공격을 표현 불가능하게 만드는 "언어적 방화벽 (linguistic firewall)"을 구축합니다. 실험 결과, ANTAP은 설명 기반 주입 공격 (description-based injection attacks)에 대해 67.3% 이상을 기록한 설명 기반 라우터 베이스라인과 비교하여 거의 0에 가까운 공격 성공률 (ASR)을 달성했습니다. 적응형 임베딩 공격 (adaptive embedding attacks)에 대해서도 ANTAP은 임베딩 기반 베이스라인보다 20% 낮은 ASR을 달성하며, 설계 단계부터 설명 조작에 대해 탄력성을 유지함을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기