MCJudgeBench: 다중 제약 지시 따르기 평가에서 제약 수준으로의 판사 평가 벤치마크
요약
MCJudgeBench는 다중 제약 지시 따르기(Multi-constraint instruction following)에서 LLM의 판사 평가를 개선하기 위해 개발된 새로운 벤치마크입니다. 기존에는 전체 응답에 대한 판단만 내려졌으나, MCJudgeBench는 개별 제약 조건 수준에서의 상세한 라벨링을 제공합니다. 이 벤치마크는 정확성뿐 아니라 프롬프트 및 응답 변형 하의 '불일치성'까지 측정하여 LLM 판사의 신뢰성이 다차원적임을 입증하며, 강력한 성능이 항상 일관된 안정성을 보장하지 않음을 보여줍니다.
핵심 포인트
- MCJudgeBench는 다중 제약 지시 따르기 평가를 위해 개별 제약 조건 수준의 상세 라벨링을 제공하는 벤치마크이다.
- 평가는 단순히 정확성(correctness)뿐만 아니라, 변형된 입력 하에서의 불일치성(inconsistency)까지 측정한다.
- LLM 판사의 신뢰성은 단일 지표로 판단할 수 없으며, 특히 'partial'이나 'no'와 같은 덜 흔한 제약 조건에서 성능 편차가 크다.
- 추론 기반 평가는 정확성을 높이지만, 시스템의 전반적인 안정성(consistency)을 보장하지는 않는다.
다중 제약 지시 따기 (Multi-constraint instruction following) 는 응답이 여러 개별 요구 사항을 충족하는지 확인해야 하지만, LLM 판사는 종종 전체 응답 판단만을 통해 평가됩니다. 우리는 다중 제약 지시 따기에서 제약 수준으로의 판사 평가를 위한 벤치마크인 MCJudgeBench 를 소개합니다. 각 인스턴스는 지시사항 (instruction), 후보 응답 (candidate response), 명시적인 제약 목록 (explicit constraint list), {yes, partial, no} 세트에 따른 제약별 금표 라벨 (per-constraint gold labels), 그리고 제어된 응답 측 변형 (controlled response-side perturbations) 을 포함합니다. 평가 프로토콜은 판사 안정성을 테스트하기 위한 평가 프롬프트 변형도 추가로 포함합니다. 우리는 정확성 (correctness) 과 불일치성 (inconsistency) 지표를 모두 사용하여 상용 및 오픈소스 LLM 판사를 평가하며, 확률적 디코딩 하의 내재적 불일치성 (intrinsic inconsistency) 과 프롬프트 및 응답 변형 하의 절차적 불일치성 (procedural inconsistency) 을 구별합니다. 우리의 결과는 판사 신뢰성이 여러 차원을 갖는다는 것을 보여줍니다: 강력한 전체 성능은 라벨 카테고리 전반에 걸쳐 균등하게 신뢰할 수 있는 검출을 보장하지 않으며, 특히 덜 흔한 partial 과 no 경우에서 더욱 그러합니다. 높은 정확성을 가진 판사는 항상 낮은 불일치성을 가지지 않습니다. 추론 (reasoning) 을 사용한 평가는 정확성을 개선하지만 안정성을 일관되게 개선하지는 않습니다. 이러한 발견들은 이러한 실패 모드를 연구하기 위해 LLM 판사를 제약 수준으로 평가하는 것을 동기를 부여합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기