arXiv논문2026. 06. 24. 10:07

AdversaBench: 다중 심사위원 확인 및 교차 모델 전이성을 활용한 자동화된 LLM 레드팀 테스트 (Red-Teaming)

요약

LLM의 취약점을 자동으로 탐색하는 레드팀 테스트 파이프라인인 AdversaBench를 제안합니다. 3인 심사위원 패널과 프롬프트 변이 연산자를 활용하여 추론, 지시 이행, 도구 사용 능력을 다각도로 평가합니다.

핵심 포인트

다중 심사위원 패널을 통한 신뢰할 수 있는 실패 검증
카테고리별로 상이한 프롬프트 변이 연산자의 효과 확인
이진 실패율이 모델의 실제 난이도를 왜곡할 수 있음을 지적
Llama 3.1에서 생성된 공격 프롬프트의 Llama 3.3 전이 가능성 입증

대규모 언어 모델 (LLM)의 적대적 평가 (adversarial evaluation)를 확장하려면 어려운 입력을 생성하는 방법과 그 결과로 발생하는 실패가 실제인지 확인하는 신뢰할 수 있는 방법이 모두 필요합니다. 우리는 다섯 가지 구조화된 연산자 (operators)로 시드 프롬프트 (seed prompts)를 변이시키고, 타겟 모델에 질의하며, 메타 심사위원 (meta-judge)의 결정권을 가진 3인 심사위원 패널을 통해 실패를 확인하는 엔드 투 엔드 (end-to-end) 레드팀 테스트 (red-teaming) 파이프라인인 AdversaBench를 제시합니다. 우리는 추론 (reasoning), 지시 이행 (instruction-following), 도구 사용 (tool use)의 세 가지 카테고리에 걸쳐 45개의 시드에 대한 실험 결과를 보고합니다. 모든 시드는 확인된 실패를 생성했습니다. 네 가지 주요 발견 사항이 눈에 띕니다. 첫째, 연산자의 효과는 카테고리에 따라 급격히 다릅니다: inject_distractor는 지시 이행 시드에서는 0.00의 평균 보상 (mean reward)을 기록했지만, 추론 및 도구 사용에서는 0.80-0.83을 기록했습니다. 둘째, 이진 실패율 (binary failure rate)은 난이도를 숨깁니다: 지시 이행 시드는 평균 2.4회의 공격자 반복 (attacker iterations)이 필요했던 반면, 다른 카테고리는 1.1회였으며, 이 차이는 생존 곡선 (survival curves)에서 명확히 나타납니다. 셋째, 레이블 왜곡 (label skew)으로 인해 80-87%의 쌍체 심사위원 일치도 (pairwise judge agreement)가 거의 0에 가까운 코헨의 카파 (Cohen's kappa) 계수와 공존합니다; 카테고리 수준의 불일치율 (disagreement rates)이 더 유익한 정보를 제공합니다. 넷째, Llama 3.1 8B를 대상으로 생성된 적대적 프롬프트는 Llama 3.3 70B로 제로샷 (zero-shot) 전이가 가능했으며, 이는 변이 (mutations)가 모델 특화된 약점보다는 일반적인 행동 패턴을 공략함을 시사합니다. 코드, 데이터셋 및 분석 스크립트는 https://github.com/khanak0509/AdversaBench 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AdversaBench: 다중 심사위원 확인 및 교차 모델 전이성을 활용한 자동화된 LLM 레드팀 테스트 (Red-Teaming)

요약

핵심 포인트

댓글