LLM 판사들은 암전류(Dark Current)를 가지고 있다: LLM-as-a-Judge 평가를 위한 심리측정 데이터시트
요약
LLM-as-a-Judge 시스템을 단순한 평가 도구가 아닌 정밀한 측정 장치로 다루어야 한다는 연구입니다. 암전류, 위치 편향, 타겟 민감도 등을 측정하는 'Judge Datasheet' 프로토콜을 제안하며 모델별 특성을 분석합니다.
핵심 포인트
- LLM 판사를 정밀 측정 도구로 취급하는 프로토콜 제안
- 암전류, 위치적 허위 선호 등 새로운 평가 지표 도입
- Llama-3.1, Qwen2.5 모델별 판사 성능 및 편향성 분석
- 프롬프팅이 해상도가 아닌 평가 기준을 이동시킨다는 점을 규명
LLM-as-a-judge (LLM 판사) 시스템은 인간의 선호도 주석(annotation) 작업이 비용이 많이 들고, 느리며, 재현하기 어려운 개방형 모델 평가(open-ended model evaluation)를 위해 현재 일상적으로 사용되고 있습니다. 그러나 이러한 판사들은 종종 스칼라 정확도(scalar accuracy), 승률(win-rate), 또는 일치 장치(agreement devices)로 보고됩니다. 우리는 판사가 대신 측정 도구(measurement instrument)로서 보고되어야 한다고 주장합니다. 우리는 진공 상태의 입력(true-vacuum inputs) 하에서의 암전류(dark current), 동일 품질의 표면 변화에 대한 안정적인 교차 민감도(cross-sensitivity), 위치적 허위 선호(positional false preference), 통제된 품질 사다리(quality ladder)에서의 타겟 민감도(target sensitivity), 그리고 동점 처리 지침(tie instructions)에 의해 유도되는 기준 또는 동작 지점(operating point)을 측정하는 Judge Datasheet 프로토콜을 소개합니다. 방향-안정성 분해(direction-stability decomposition)를 통해, 겉으로 드러나는 Delta0 선호가 안정적인 표면 반응(surface response)일 수도 있고, 위장된 위치 편향(position bias)일 수도 있음을 밝혀냅니다. 세 가지 오픈 웨이트(open-weight) 판사 사례 연구에서, Llama-3.1-8B는 높은 암전류와 제시 방식에 따라 갈등하는 Delta0 동작을 보였고, Qwen2.5-14B는 진공 상태가 깨끗하고 타겟 민감도가 높지만 안정적 및 위치적 과잉 차별(over-discrimination)이 혼재되어 나타났으며, Qwen2.5-32B는 낮은 안정적 교차 민감도와 낮은 위치적 허위 선호를 가진 깨끗한 진공 상태를 보였습니다. 엄격한 동점 기준(tie criterion)은 Qwen2.5-32B의 Delta0 허위 선호를 제거하지만, Delta5 민감도를 유지하면서도 미세한 Delta1 타겟 신호를 동점으로 흡수해 버립니다. 결과는 프롬프팅(prompting)이 해상도(resolution)를 바꾸는 것이 아니라 기준(criterion)을 이동시킨다는 것을 보여줍니다. 우리는 이 연구의 동기가 된 하위 메커니즘 가설(downstream mechanism hypothesis)이 확인되었다고 주장하지 않습니다. 본 연구의 기여는 하위 단계의 주장이 제기되기 전에 측정 장치를 측정하기 위한 계측 프로토콜(metrological protocol)을 제공하는 것입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기