AI 안전성 평가를 위한 적대적 화용론 (Adversarial Pragmatics): 지시 충돌, 내장된 명령, 정책 모호성을 위한 벤치마크

언어 모델(Language Models)에 대한 안전성 평가(Safety evaluations)는 점차 모호한 자연어 행동에 대한 판단에 의존하고 있습니다. 즉, 모델이 지시를 따랐는지, 적절하게 거절했는지, 정책을 준수했는지, 내장된 명령(embedded command)에 저항했는지, 또는 에이전트 작업(agentic task)에서 진행 상황을 잘못 보고했는지 여부입니다. 기존의 벤치마크들은 종종 이러한 차이점들을 합격/불합격(pass/fail) 라벨로 압축하여, 실패의 원인이 능력의 한계인지, 정책의 모호성(policy ambiguity)인지, 지시 충돌(instruction conflict)인지, 스캐폴드 실패(scaffold failure)인지, 또는 평가자 판단의 불안정성인지 여부를 불분명하게 만듭니다. 본 논문은 지시 충돌, 내장된 명령, 인용(quotation), 범위 모호성(scope ambiguity), 직시(deixis), 간접 화행(indirect speech acts), 그리고 다회차 에이전트 트랜스크립트(multi-turn agent transcripts) 하에서의 모델 행동을 평가하기 위한 벤치마크 및 주석 프로토콜로서 적대적 화용론(adversarial pragmatics)을 소개합니다. 본 연구의 기여는 경험적 및 방법론적입니다: 언어학적으로 통제된 분류 체계(taxonomy), 검증자 강제 메타데이터가 포함된 18개 항목의 시드 벤치마크(seed benchmark), 54행의 로컬 시드 파일럿(local seed pilot), 작업 성공, 정책 준수, 안전 위험, 거절 결과, 그리고 평가자 신뢰도를 구분하는 전문가 평가 프로토콜, 그리고 판사 유효성(judge validity), 진단적 모호성(diagnostic ambiguity), 분류 체계 표류(taxonomy drift)를 위한 지표를 제공합니다. 이 프레임워크는 언어적 판단 방법론을 안전성 평가(safety evals), LLM 판사(LLM judges), 골드셋(gold-set) 구축, 프롬프트 주입(prompt-injection) 테스트, 그리고 안전 문서화를 검증하기 위한 실용적인 도구로 전환합니다.

Insights

AI 안전성 평가를 위한 적대적 화용론 (Adversarial Pragmatics): 지시 충돌, 내장된 명령, 정책 모호성을 위한 벤치마크

요약

핵심 포인트

댓글

Micron 주식 투자자 여러분, 7월 10일을 주목하세요

Roblox 주식, 역사적으로 강세 신호를 보냈다

Microsoft, 인도-동남아시아 해저 AI 케이블 구축 컨소시엄 합류 - 보고서

아이들의 '트럼프 계좌' 자금, 어디에 투자할 수 있을까? 재무부(Treasury Department)가 그 질문에 답했다.

Roblox 주식, 역사적으로 강세 신호를 보냈다

Microsoft, 인도-동남아시아 해저 AI 케이블 구축 컨소시엄 합류 - 보고서

아이들의 '트럼프 계좌' 자금, 어디에 투자할 수 있을까? 재무부(Treasury Department)가 그 질문에 답했다.