체리피킹 오버라이드(Cherry-pick Override): 혼합된 증거 하에서 LLM 판사(LLM Judges)의 안전하지 않은 방향성 확약
요약
LLM 판사가 상충하는 증거가 존재할 때 비방향성 판결(CONFLICTING) 대신 편향된 방향성 판결을 내리는 '체리피킹 오버라이드(CCO)' 현상을 분석합니다. 연구팀은 기존 수정 방법론의 한계를 지적하며, 판결 생성과 확약을 분리하는 외부 확약 제어 계층을 제안합니다.
핵심 포인트
- LLM 판사는 혼합된 증거 상황에서 84% 이상의 높은 확률로 방향성 편향을 보임
- 다수결 투표 방식은 오히려 CCO로 인한 방향성 편향을 증폭시키는 경향이 있음
- 기존의 패널 집계나 신뢰도 기반 필터링은 CCO 문제를 완전히 해결하지 못함
- 판결 생성과 확약 승인을 분리하는 외부 확약 제어 계층 도입이 필요함
LLM 판사(LLM Judges)는 점차 판결을 시스템적 확약(system commitments)으로 전환하고 있습니다. 혼합된 증거(supporting 및 refuting 소스가 모두 포함된 주장) 상황에서 이는 안전하지 않습니다. 스키마(schema)가 'CONFLICTING(충돌)'을 허용된 비방향성 판결로 노출하고 있음에도 불구하고, 'SUPPORTS(지지)' 또는 'REFUTES(반박)'를 반환하는 것은 허가되지 않은 방향성 확약이며, 우리는 이러한 실패를 체리피킹 오버라이드(Cherry-pick Override, CCO)라고 명명합니다. 우리는 명시적인 작업 계약(task contract) 하에서 CCO를 정의하고, 매칭된 커버리지 부트스트랩(matched-coverage bootstrap) 및 동일 조건의 무작위 거부 귀무 가설(apples-to-apples random-veto null)과 결합된 동일 분모 진단 프로토콜(same-denominator diagnostic protocol)을 통해 이를 보고합니다. AVeriTeC의 Conflicting 서브셋(N_C = 150)에서, 3지 선다형 판사들은 혼합된 증거를 가진 주장의 84% 이상에 대해 방향성 판결을 내립니다. 유형화된 스키마(typed schema) 하에서, 3인 판사 다수결 투표(three-judge majority voting)는 AVeriTeC에서의 충돌 시 방향성 편향을 증폭시키지만(0.887 대 0.840; 95% CI [+0.013, +0.080]), VitaminC-Mixed에서는 재현되지 않습니다. 일반적인 단일 채널 수정 방법들(typed vocabulary, panel aggregation, confidence thresholding, validator-only filtering)의 개입 사다리(intervention ladder)를 따라가 보면, 각각은 뚜렷한 잔여 실패를 남깁니다. 패널 집계(panel aggregation)는 CCO 사례의 48%에서 단일 판사의 CONFLICTING 반대를 억제합니다. 패널은 방향성에 대해 잘 보정되어 있어(순수 S/R에 대해 ECE = 0.07), 신뢰도(confidence)만으로는 운영상 CCO와 올바른 방향성 확약을 분리할 수 없습니다. 분류기로서의 검증기(validator-as-classifier) 방식은 순수 증거 정확도를 거의 절반으로 떨어뜨립니다. 최소한의 2채널 참조 프로브(two-channel reference probe)는 단일 채널이 도달할 수 없는 운영 지점에 도달합니다. 무작위 거부 귀무 가설(random-veto null) 하에서, 이 프로브를 CONFLICTING으로 승격시키는 것은 AVeriTeC에서 구조적으로 타겟팅되며(경험적 p < 1/2001), VitaminC-Mixed에서는 규모보다는 선택성(selectivity) 측면에서 더 약하지만 동일한 방향성을 보입니다. 우리는 구조적 증거와 신뢰도를 직교 채널(orthogonal channels)로 사용하고, NO-COMMIT을 라우팅된 컨트롤러 상태(routed controller state)로 사용하는, 판결 생성과 확약 승인을 분리하는 외부 확약 제어 계층(external commitment-control layer)을 제안합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기