AI 안전성 평가를 위한 적대적 화용론 (Adversarial Pragmatics): 지시 충돌, 내장된 명령, 정책 모호성을 위한 벤치마크
요약
언어 모델의 안전성 평가 시 발생하는 모호성을 해결하기 위해 '적대적 화용론(Adversarial Pragmatics)' 벤치마크를 제안합니다. 지시 충돌, 내장된 명령, 정책 모호성 등을 언어학적으로 분류하여 모델의 실패 원인을 정밀하게 진단합니다.
핵심 포인트
- 기존 pass/fail 방식의 한계를 극복하는 정밀 진단 프레임워크 제안
- 지시 충돌, 내장된 명령 등 언어학적 요소를 반영한 18개 시드 벤치마크 구축
- 작업 성공, 정책 준수, 안전 위험 등을 구분하는 전문가 평가 프로토콜 제공
- LLM 판사 유효성 및 프롬프트 주입 테스트를 위한 실용적 도구 활용 가능
언어 모델(Language Models)에 대한 안전성 평가(Safety evaluations)는 점차 모호한 자연어 행동에 대한 판단에 의존하고 있습니다. 즉, 모델이 지시를 따랐는지, 적절하게 거절했는지, 정책을 준수했는지, 내장된 명령(embedded command)에 저항했는지, 또는 에이전트 작업(agentic task)에서 진행 상황을 잘못 보고했는지 여부입니다. 기존의 벤치마크들은 종종 이러한 차이점들을 합격/불합격(pass/fail) 라벨로 압축하여, 실패의 원인이 능력의 한계인지, 정책의 모호성(policy ambiguity)인지, 지시 충돌(instruction conflict)인지, 스캐폴드 실패(scaffold failure)인지, 또는 평가자 판단의 불안정성인지 여부를 불분명하게 만듭니다. 본 논문은 지시 충돌, 내장된 명령, 인용(quotation), 범위 모호성(scope ambiguity), 직시(deixis), 간접 화행(indirect speech acts), 그리고 다회차 에이전트 트랜스크립트(multi-turn agent transcripts) 하에서의 모델 행동을 평가하기 위한 벤치마크 및 주석 프로토콜로서 적대적 화용론(adversarial pragmatics)을 소개합니다. 본 연구의 기여는 경험적 및 방법론적입니다: 언어학적으로 통제된 분류 체계(taxonomy), 검증자 강제 메타데이터가 포함된 18개 항목의 시드 벤치마크(seed benchmark), 54행의 로컬 시드 파일럿(local seed pilot), 작업 성공, 정책 준수, 안전 위험, 거절 결과, 그리고 평가자 신뢰도를 구분하는 전문가 평가 프로토콜, 그리고 판사 유효성(judge validity), 진단적 모호성(diagnostic ambiguity), 분류 체계 표류(taxonomy drift)를 위한 지표를 제공합니다. 이 프레임워크는 언어적 판단 방법론을 안전성 평가(safety evals), LLM 판사(LLM judges), 골드셋(gold-set) 구축, 프롬프트 주입(prompt-injection) 테스트, 그리고 안전 문서화를 검증하기 위한 실용적인 도구로 전환합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기