본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 24. 10:07

AdversaBench: 다중 심사위원 확인 및 교차 모델 전이성을 활용한 자동화된 LLM 레드팀 테스트 (Red-Teaming)

요약

LLM의 취약점을 자동으로 탐색하는 레드팀 테스트 파이프라인인 AdversaBench를 제안합니다. 3인 심사위원 패널과 프롬프트 변이 연산자를 활용하여 추론, 지시 이행, 도구 사용 능력을 다각도로 평가합니다.

핵심 포인트

  • 다중 심사위원 패널을 통한 신뢰할 수 있는 실패 검증
  • 카테고리별로 상이한 프롬프트 변이 연산자의 효과 확인
  • 이진 실패율이 모델의 실제 난이도를 왜곡할 수 있음을 지적
  • Llama 3.1에서 생성된 공격 프롬프트의 Llama 3.3 전이 가능성 입증

대규모 언어 모델 (LLM)의 적대적 평가 (adversarial evaluation)를 확장하려면 어려운 입력을 생성하는 방법과 그 결과로 발생하는 실패가 실제인지 확인하는 신뢰할 수 있는 방법이 모두 필요합니다. 우리는 다섯 가지 구조화된 연산자 (operators)로 시드 프롬프트 (seed prompts)를 변이시키고, 타겟 모델에 질의하며, 메타 심사위원 (meta-judge)의 결정권을 가진 3인 심사위원 패널을 통해 실패를 확인하는 엔드 투 엔드 (end-to-end) 레드팀 테스트 (red-teaming) 파이프라인인 AdversaBench를 제시합니다. 우리는 추론 (reasoning), 지시 이행 (instruction-following), 도구 사용 (tool use)의 세 가지 카테고리에 걸쳐 45개의 시드에 대한 실험 결과를 보고합니다. 모든 시드는 확인된 실패를 생성했습니다. 네 가지 주요 발견 사항이 눈에 띕니다. 첫째, 연산자의 효과는 카테고리에 따라 급격히 다릅니다: inject_distractor는 지시 이행 시드에서는 0.00의 평균 보상 (mean reward)을 기록했지만, 추론 및 도구 사용에서는 0.80-0.83을 기록했습니다. 둘째, 이진 실패율 (binary failure rate)은 난이도를 숨깁니다: 지시 이행 시드는 평균 2.4회의 공격자 반복 (attacker iterations)이 필요했던 반면, 다른 카테고리는 1.1회였으며, 이 차이는 생존 곡선 (survival curves)에서 명확히 나타납니다. 셋째, 레이블 왜곡 (label skew)으로 인해 80-87%의 쌍체 심사위원 일치도 (pairwise judge agreement)가 거의 0에 가까운 코헨의 카파 (Cohen's kappa) 계수와 공존합니다; 카테고리 수준의 불일치율 (disagreement rates)이 더 유익한 정보를 제공합니다. 넷째, Llama 3.1 8B를 대상으로 생성된 적대적 프롬프트는 Llama 3.3 70B로 제로샷 (zero-shot) 전이가 가능했으며, 이는 변이 (mutations)가 모델 특화된 약점보다는 일반적인 행동 패턴을 공략함을 시사합니다. 코드, 데이터셋 및 분석 스크립트는 https://github.com/khanak0509/AdversaBench 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0