arXiv논문2026. 05. 06. 12:57

MCJudgeBench: 다중 제약 지시 따르기 평가에서 제약 수준으로의 판사 평가 벤치마크

요약

MCJudgeBench는 다중 제약 지시 따르기(Multi-constraint instruction following)에서 LLM의 판사 평가를 개선하기 위해 개발된 새로운 벤치마크입니다. 기존에는 전체 응답에 대한 판단만 내려졌으나, MCJudgeBench는 개별 제약 조건 수준에서의 상세한 라벨링을 제공합니다. 이 벤치마크는 정확성뿐 아니라 프롬프트 및 응답 변형 하의 '불일치성'까지 측정하여 LLM 판사의 신뢰성이 다차원적임을 입증하며, 강력한 성능이 항상 일관된 안정성을 보장하지 않음을 보여줍니다.

핵심 포인트

MCJudgeBench는 다중 제약 지시 따르기 평가를 위해 개별 제약 조건 수준의 상세 라벨링을 제공하는 벤치마크이다.
평가는 단순히 정확성(correctness)뿐만 아니라, 변형된 입력 하에서의 불일치성(inconsistency)까지 측정한다.
LLM 판사의 신뢰성은 단일 지표로 판단할 수 없으며, 특히 'partial'이나 'no'와 같은 덜 흔한 제약 조건에서 성능 편차가 크다.
추론 기반 평가는 정확성을 높이지만, 시스템의 전반적인 안정성(consistency)을 보장하지는 않는다.

다중 제약 지시 따기 (Multi-constraint instruction following) 는 응답이 여러 개별 요구 사항을 충족하는지 확인해야 하지만, LLM 판사는 종종 전체 응답 판단만을 통해 평가됩니다. 우리는 다중 제약 지시 따기에서 제약 수준으로의 판사 평가를 위한 벤치마크인 MCJudgeBench 를 소개합니다. 각 인스턴스는 지시사항 (instruction), 후보 응답 (candidate response), 명시적인 제약 목록 (explicit constraint list), {yes, partial, no} 세트에 따른 제약별 금표 라벨 (per-constraint gold labels), 그리고 제어된 응답 측 변형 (controlled response-side perturbations) 을 포함합니다. 평가 프로토콜은 판사 안정성을 테스트하기 위한 평가 프롬프트 변형도 추가로 포함합니다. 우리는 정확성 (correctness) 과 불일치성 (inconsistency) 지표를 모두 사용하여 상용 및 오픈소스 LLM 판사를 평가하며, 확률적 디코딩 하의 내재적 불일치성 (intrinsic inconsistency) 과 프롬프트 및 응답 변형 하의 절차적 불일치성 (procedural inconsistency) 을 구별합니다. 우리의 결과는 판사 신뢰성이 여러 차원을 갖는다는 것을 보여줍니다: 강력한 전체 성능은 라벨 카테고리 전반에 걸쳐 균등하게 신뢰할 수 있는 검출을 보장하지 않으며, 특히 덜 흔한 partial 과 no 경우에서 더욱 그러합니다. 높은 정확성을 가진 판사는 항상 낮은 불일치성을 가지지 않습니다. 추론 (reasoning) 을 사용한 평가는 정확성을 개선하지만 안정성을 일관되게 개선하지는 않습니다. 이러한 발견들은 이러한 실패 모드를 연구하기 위해 LLM 판사를 제약 수준으로 평가하는 것을 동기를 부여합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MCJudgeBench: 다중 제약 지시 따르기 평가에서 제약 수준으로의 판사 평가 벤치마크

요약

핵심 포인트

댓글