arXiv논문2026. 06. 16. 11:57

LLM 판사들은 암전류(Dark Current)를 가지고 있다: LLM-as-a-Judge 평가를 위한 심리측정 데이터시트

요약

LLM-as-a-Judge 시스템을 단순한 평가 도구가 아닌 정밀한 측정 장치로 다루어야 한다는 연구입니다. 암전류, 위치 편향, 타겟 민감도 등을 측정하는 'Judge Datasheet' 프로토콜을 제안하며 모델별 특성을 분석합니다.

핵심 포인트

LLM 판사를 정밀 측정 도구로 취급하는 프로토콜 제안
암전류, 위치적 허위 선호 등 새로운 평가 지표 도입
Llama-3.1, Qwen2.5 모델별 판사 성능 및 편향성 분석
프롬프팅이 해상도가 아닌 평가 기준을 이동시킨다는 점을 규명

LLM-as-a-judge (LLM 판사) 시스템은 인간의 선호도 주석(annotation) 작업이 비용이 많이 들고, 느리며, 재현하기 어려운 개방형 모델 평가(open-ended model evaluation)를 위해 현재 일상적으로 사용되고 있습니다. 그러나 이러한 판사들은 종종 스칼라 정확도(scalar accuracy), 승률(win-rate), 또는 일치 장치(agreement devices)로 보고됩니다. 우리는 판사가 대신 측정 도구(measurement instrument)로서 보고되어야 한다고 주장합니다. 우리는 진공 상태의 입력(true-vacuum inputs) 하에서의 암전류(dark current), 동일 품질의 표면 변화에 대한 안정적인 교차 민감도(cross-sensitivity), 위치적 허위 선호(positional false preference), 통제된 품질 사다리(quality ladder)에서의 타겟 민감도(target sensitivity), 그리고 동점 처리 지침(tie instructions)에 의해 유도되는 기준 또는 동작 지점(operating point)을 측정하는 Judge Datasheet 프로토콜을 소개합니다. 방향-안정성 분해(direction-stability decomposition)를 통해, 겉으로 드러나는 Delta0 선호가 안정적인 표면 반응(surface response)일 수도 있고, 위장된 위치 편향(position bias)일 수도 있음을 밝혀냅니다. 세 가지 오픈 웨이트(open-weight) 판사 사례 연구에서, Llama-3.1-8B는 높은 암전류와 제시 방식에 따라 갈등하는 Delta0 동작을 보였고, Qwen2.5-14B는 진공 상태가 깨끗하고 타겟 민감도가 높지만 안정적 및 위치적 과잉 차별(over-discrimination)이 혼재되어 나타났으며, Qwen2.5-32B는 낮은 안정적 교차 민감도와 낮은 위치적 허위 선호를 가진 깨끗한 진공 상태를 보였습니다. 엄격한 동점 기준(tie criterion)은 Qwen2.5-32B의 Delta0 허위 선호를 제거하지만, Delta5 민감도를 유지하면서도 미세한 Delta1 타겟 신호를 동점으로 흡수해 버립니다. 결과는 프롬프팅(prompting)이 해상도(resolution)를 바꾸는 것이 아니라 기준(criterion)을 이동시킨다는 것을 보여줍니다. 우리는 이 연구의 동기가 된 하위 메커니즘 가설(downstream mechanism hypothesis)이 확인되었다고 주장하지 않습니다. 본 연구의 기여는 하위 단계의 주장이 제기되기 전에 측정 장치를 측정하기 위한 계측 프로토콜(metrological protocol)을 제공하는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 판사들은 암전류(Dark Current)를 가지고 있다: LLM-as-a-Judge 평가를 위한 심리측정 데이터시트

요약

핵심 포인트

댓글