55개의 LLM을 활용한 상호 블라인드 평가 (22,000건의 판정, 모두 공개): 데이터가 충분한 모든 모델 제품군은 자신의 형제 모델을

요약

55개의 LLM을 대상으로 수행한 상호 블라인드 평가 연구를 통해 모델 제품군 간의 평가 편향을 분석했습니다. 연구 결과, 대부분의 모델 제품군에서 자기 계열 모델에게 높은 점수를 주는 '내집단 편향'이 발견되었으며, Mistral의 경우 오히려 부정적인 편향이 나타나는 이례적인 결과도 확인되었습니다.

핵심 포인트

8개 제품군 중 7개에서 통계적으로 유의미한 동일 계열 평가 편향 발견
Mistral 모델은 다른 Mistral 모델을 체계적으로 낮게 평가하는 부정적 편향 확인
단일 리더보드 방식의 한계와 코드 평가 분야의 높은 불일치성 지적
향후 답변 품질과 판정관 효과를 분리하는 정교한 평가 모델 필요성 제안

저는 N개의 모델이 동일한 프롬프트에 답하고, 자기 자신에 대한 판정을 제외한 N x N 매트릭스 내에서 서로를 블라인드 평가하는 오픈 평가 설정을 실행해 왔습니다. 특권적인 단일 판정관은 없습니다. 지금까지의 결과는 다음과 같습니다: 286회의 평가, 198개의 수기 질문, 11개의 개발사 제품군(developer families)에서 나온 55개 모델에 걸친 22,254개의 유효한 판정. 코드, 데이터셋, 그리고 모든 프롬프트는 MIT 라이선스입니다.

제가 예상하지 못했던 발견은 다음과 같습니다: 데이터가 충분한 8개 제품군 모두에서 동일 제품군에 대한 평가 편향(same-family rating bias)이 통계적으로 유의미했습니다 (p < 0.05, 8개 중 7개가 Bonferroni 보정 통과). 0-10 척도 기준으로:

Qwen 판정관은 다른 Qwen 모델에 +0.91점을 부여합니다.
xAI +0.75, Anthropic +0.62, MiniMax +0.31, OpenAI +0.23
Google -0.59, Meta -0.68, Mistral -1.02

긍정적인 내집단 편향(in-group bias)은 예상된 결과입니다. 흥미로운 부분은 부정적인 편향입니다. Mistral 판정관은 다른 Mistral 모델의 점수를 체계적으로 1점이나 낮게 평가하며, 이는 전체 세트에서 가장 큰 절대적 편향입니다. 이런 결과는 이전에 보고된 적이 없으며, 저도 명확한 설명을 가지고 있지 않습니다. 학습 데이터, RLHF(인간 피드백을 통한 강화학습) 선호도 데이터, 또는 스타일적인 자기 처벌(stylistic self-penalty) 때문일 수 있습니다.

두 가지 다른 사실도 도출되었습니다. 종합 리더보드(Aggregate leaderboards)는 많은 것을 숨깁니다. 9개의 카테고리 풀(category pools) 전체에서 6개의 서로 다른 모델이 1위를 차지했으므로, "최고의 모델"이라는 질문은 잘못된 질문입니다. 그리고 코드는 판정관들이 가장 많이 의견이 갈리는 분야로, 메타 정렬(meta-alignment)보다 불일치가 거의 두 배에 달하며, 이는 단일 판정관의 코드 평가가 특히 불안정함을 의미합니다.

저장소 및 데이터: github.com/themultivac/multivac-evaluation
논문: themultivac.com/papers/blind-peer-matrix.pdf

이 연구가 다음에 나아가야 할 방향이라고 생각하는 지점이며, 반론을 환영하는 부분은 다음과 같습니다:

정답(ground truth)이 존재하는 곳에서는 정답에 고정하십시오. 모든 피어 평가(peer setup)에 대한 공정한 비판은 LLM이 LLM을 평가한다는 점입니다. 코드와 수학의 경우 해결 가능합니다: 테스트 스위트(test suite)나 검증기(verifier)로 점수를 매기고, 실행 결과로 결정할 수 없는 경우에만 판정관을 사용하십시오. 최근의 코드 실행에서 판정관들이 동시성 테스트(concurrency test)에 대한 실행 결과와 실제로 상충되는 결과를 내놓았으며, 테스트가 실패한 답변을 선호했습니다. 따라서 이는 가설이 아닌 실제 상황입니다.

응답 품질에 대한 편향 수치를 제어하십시오.

현재의 동일 계열 편향 (same-family bias)은 가공되지 않은 점수 차이이며, 이는 실제 편향과 특정 모델 계열이 단순히 더 나은 답변을 생성할 가능성을 혼재시키고 있습니다. 더 정교한 버전은 답변을 고정시킨 상태에서, 응답 내 혼합 효과 모델 (within-response mixed-effects model)을 통해 동일 계열 판정관과 타 계열 판정관을 정확히 동일한 출력물에 대해 비교합니다. 이를 통해 답변의 품질로부터 판정관 효과 (judge effect)를 분리해낼 수 있습니다. 이것이 제가 가장 강화하고 싶은 결과입니다.

평균을 내는 것보다 더 나은 집계 방식. 평균 방식은 관대한 판정관과 엄격한 판정관을 동일하게 취급합니다. 판정관의 관대함 (leniency)과 문항의 난이도 (difficulty)를 공동으로 추정하는 Bradley-Terry 모델 또는 문항 반응 이론 (item-response model)을 사용한다면 더 정직한 순위를 제공할 것이며, 현재 수치와 병행하여 실행함으로써 얼마나 변하는지 확인해보고 싶습니다.
동일 계열 편향 뒤에 숨겨진 메커니즘 테스트. 만약 이것이 스타일적 자기 인식 (stylistic self-recognition) 때문이라면, 표면적인 스타일을 제거하기 위해 답변을 의역 (paraphrasing)했을 때 편향이 줄어들어야 합니다. 이는 깔끔한 반사실적 (counterfactual) 검증이며, 아직 실행되는 것을 본 적이 없습니다.
인간을 통한 검증, 그리고 질문 단일 문화 (question monoculture) 해결. 일부 하위 집합에 대한 인간 상관관계 연구는 명백한 골드 스탠다드 (gold-standard) 체크이며, 제가 198개의 모든 질문을 직접 작성했으므로, 여러 명의 저자가 참여하거나 별도로 분리된 실제 세계의 프롬프트를 사용한다면 질문 설계에서 저의 흔적을 제거할 수 있을 것입니다.

솔직한 약점은 여전히 LLM이 LLM을 판정하고 있다는 점과, 제가 모든 질문을 작성했다는 점입니다. 저는 이것을 제출한 후가 아니라 지금 방법론에 대한 비판을 듣고 싶습니다. 이 수치들을 신뢰하기 전에 여러분이 확인하고 싶은 것은 무엇입니까?

제출자: /u/Silver_Raspberry_811
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

55개의 LLM을 활용한 상호 블라인드 평가 (22,000건의 판정, 모두 공개): 데이터가 충분한 모든 모델 제품군은 자신의 형제 모델을

요약

핵심 포인트

댓글