본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 06. 06. 12:40

이종 벤더(Vendor)로 '심사의 관대함'을 억제할 수 있을까 — LLM의 자기 선호(Self-preference)를 진지하게 측정한 이야기

요약

LLM을 심사위원으로 사용할 때 발생하는 '자기 선호(self-preference)' 편향을 분석하고, 이종 벤더 모델을 통한 해결 가능성을 실험한 연구 기록입니다. 동일 계열 모델이 자신의 스타일과 유사한 답변에 관대하게 점수를 주는 현상과 그 기제를 다룹니다.

핵심 포인트

  • LLM 심사 시 동일 계열 모델에 대한 자기 선호 편향 발생
  • 자기 선호는 사실 관계보다 응답 스타일의 일치성에 기인함
  • 모델의 자기 인식 능력이 높을수록 자기 선호도도 상승하는 경향
  • 이종 벤더 모델 활용이 편향 억제 대책으로 논의됨

1. 서론 — 「식구가 식구를 채점하는」 문제

안녕하세요, 료(りょう)입니다. 저는 QA 엔지니어로, 평소 테스트 설계에 생성 AI (Claude)를 사용하는 툴을 직접 제작하고 있습니다. 이 툴은 설계한 테스트를 다른 AI가 채점·리뷰하는 공정을 여러 개 가지고 있습니다. 예를 들어 테스트 계획을 작성했을 경우, 별도의 컨텍스트에서 진행되는 리뷰 공정입니다. 생성도 검증도 모두 같은 계열의 모델입니다.

여기에 연재 제2회(AI의 행동)에서 다루었던 약점이 그대로 나타납니다. ——LLM을 심사위원(judge)으로 사용하면, 자신과 같은 계열이 작성한 답안을 관대하게 채점하기 쉽다는 점입니다. 이는 「자기 선호 (self-preference)」라고 불리는 편향(bias)입니다 (Panickssery et al. 2024 / Wataoka et al. 2024). 생성과 검증이 모두 동일 계열이라면, 식구가 식구를 채점하여 둘 다 똑같이 관대해지는 결과를 초래할지도 모릅니다.

대책은 문헌상 거의 한 가지로 보입니다. 「다른 벤더의 모델에게 심사를 맡기는 것」입니다. Claude (본고의 실험에서는 Opus 4.8)가 작성한 것을 다른 벤더 (OpenAI의 gpt-5.5, Codex CLI 경유. 이하 「Codex」는 이를 지칭)에게 판단하게 한다면, 외부에서 식구 편애를 깨뜨릴 수 있지 않을까 —— (모델은 모두 2026년 6월 시점 기준).

본고는 그 가설을 측정한 기록입니다. 결론부터 말씀드리면 —— 측정할 때마다 효과가 다른 정체로 차례차례 변했습니다. 그리고 마지막에 남은 것은 '이종 벤더'보다 훨씬 수수하고 저렴한 대책이었습니다. 이는 연재를 통해 반복해 온 「첫 번째 숫자를 액면 그대로 믿지 마라」의 자기 선호 버전입니다.

2. 문헌이 말하는 것 (그리고 간과하기 쉬운 단서)

이하는 문헌이 보고하고 있는 성질입니다 (논문의 주장이며, 저는 이 "왜"라는 기제(mechanism)까지는 측정하지 못했습니다 —— 후술).

(1) 동일 계열을 관대하게 채점한다. Wataoka 등 (arXiv:2410.21819)은 GPT-4의 자기 선호 편향을 0.52로 측정했습니다 (Def 4.1 / §4.3). 이 지표는 인간이 어느 쪽을 좋다고 판단했는지를 통해 일단 실력 차이를 고정한 후, 심사 모델이 자신의 출력물일 때만 유독 높게 점수를 주는 부분으로 정의됩니다. 즉, 측정하고 있는 것은 실력 차이가 아니라, 실력이 동일한 조건에서의 식구 편애입니다.

(2) 기제는 「자기 인식」으로 여겨진다. Panickssery 등 (arXiv:2404.13076, NeurIPS 2024)은 심사 모델이 자신의 생성물을 구별할 수 있으며 (GPT-4 기본 모델 73.5%, fine-tune 후에는 90% 초과), 그 구별 능력을 높이면 자기 선호도 연동되어 높아진다는 선형 상관관계를 보여주었습니다 (Abstract / §3). 다만 저자 스스로가 「상관관계는 인과관계의 증명이 아니다 (LLM의 기제를 직접 관찰할 도구가 아직 없다)」라고 유보하고 있습니다 —— 이 부분은 단정이 아닌 "지지" 수준에 머물러 있습니다.

(3) 정체는 사실의 정오가 아니라, 스타일/방침의 일치이다. 마찬가지로 Wataoka 등은 GPT-4의 자기 선호는 「명확한 사실 오류가 아니라, 응답 스타일의 차이」에서 기인한다고 설명합니다 (§5: not related to clear factual errors but rather to differences in response styles). 예를 들어 「파란 물건을 들어보세요」라는 요청에 대해, GPT-4는 「저는 물리적으로 볼 수 없지만」이라고 전제를 둔 뒤 나열하는 자신의 답변을, 인간이 선택한 솔직한 답변보다 높게 평가했습니다 —— 내용이 아니라 서술 방식의 일치를 채점한 사례입니다.

(4) 「강한 모델일수록 악화한다」는 주의해서 다뤄야 한다. 흔히 「새롭고 강한 모델일수록 악화한다」라고 말하지만, 위의 두 논문이 보여주는 것은 **점 관측(point observation)**입니다 (8개 모델 중 가장 강한 GPT-4가 최대치). Panickssery는 스케일링(scaling) 자체를 측정하지 않았습니다 (조작한 것은 인식 능력). 오히려 후속 연구인 Chen 등 (arXiv:2504.03846)은 「강한 모델은 확실히 자기 선호가 크지만, 그 상당수는 실제로 우수한 출력을 선택하는 "정당한" 것이며, "유해한" 식구 편애는 오답 시에 현저하다」라고 조건부로 정리하고 있습니다. 따라서 「미래의 모델에서는 자동으로 악화할 것이다」라고 단정 짓지 말고, 후술할 카나리아(canary)를 통해 측정하며 감시하는 것이 정확합니다.

그리고 또 하나 —— (3)의 「스타일의 일치」를 저는 처음에 읽기 넘겨버렸습니다. 이것이 나중에 영향을 미칩니다.

3. 첫 번째 측정 — 「이종 벤더, 효과가 있지 않은가"

우선 솔직하게 시도해 보았습니다. 동일 계열의 심사가 '합격'이라고 판정한 항목을, 다른 벤더(Codex)에게 기습적으로 재심사하게 했습니다. (이때 소재로 삼은 것은 검증식이 수학적으로 올바른가—**정답이 있는 태스크 (Task with a ground truth)**였습니다. 이 선택이 나중에 영향을 미칩니다.)

그러자——동일 계열이 놓치고 있던 결함을 여러 개 찾아냈습니다. 검증식이 수학적으로 틀렸던 케이스를, Codex가 "이것은 성립하지 않는다"라고 정확히 지적한 것입니다. "이종 모델, 효과 있다. 문헌대로 다른 벤더가 자기 편향(Self-preference)을 깨뜨렸다". 그렇게 쓰고 싶어졌습니다.

여기서 멈췄다면 틀렸을 것입니다.

4. 함정 ①: 애초에 측정하고 있던 것이 문헌과 달랐다

발목을 잡은 것은, 원전의 수법을 따라갔을 때입니다.

문헌이 '자기 선호 (Self-preference)'라고 부르는 것은, 앞서 언급한 단서와 같이——정답이 없는 주관적인 좋고 나쁨에 대해, 품질이 비슷함에도 자신의 것을 높게 평가하는 편향을 말합니다. 사실의 정오(正誤)가 아닙니다.

그런데 제가 측정하고 있었던 것은, "수학적으로 틀린 검증식을 간파할 수 있는가"——**정답이 있는 태스크 (Task with a ground truth)**였습니다. 이는 문헌에서 '자기 선호와는 별개'라고 명확히 구분 짓고 있는, 완전히 다른 축입니다.

즉——효과는 확실히 나타났다. 하지만 주장하고 싶었던 개념(자기 선호)을 애초에 측정하지 못했다는 뜻입니다. "이종 모델이 결함을 찾아냈다"는 것은 사실일지라도, 그것이 "이종 모델이 자기 선호를 깨뜨렸다"는 증거는 아니었습니다. 측정의 목표가 개념에서 벗어나 있었던 것입니다 (연구 용어로 구성 개념 타당성 (Construct validity) —— "그 지표가 정말로 그 개념을 측정하고 있는가").

이것이 첫 번째이자, 가장 알아차리기 어려운 함정이었습니다. 무언가를 측정하면 숫자는 나온다. 하지만 그 숫자가 내가 말하고자 하는 것을 측정하고 있다고는 할 수 없다.

5. 정체를 하나씩 벗겨내기

그렇다면 "이종 모델이 결함을 찾아낸" 효과는 도대체 무엇이었을까요. 하나씩 벗겨보았습니다.

벗기기 ①: 자기 선호인가, 아니면 단순한 실력 차이인가. 결함을 포함한 문장의 내용은 바꾸지 않고, 작성자의 문체만 Claude 스타일/Codex 스타일로 교체하여 다시 양측에 심사를 맡겼습니다. 그러자——결함 탐지는 누구의 문체인지와 거의 상관없이, Codex 심사가 잘 찾아냈고 Claude 심사는 놓치기 일쑤였습니다. 이는 "자신의 것을 너그럽게 보는 것(자기 선호)"이 아니라, Codex가 산술 검산에 강하고/Claude가 이런 종류의 식에 약하다는 능력 차이였습니다. 작성자가 누구냐의 문제가 아니라, 심사 측의 잘하고 못하는 문제였습니다. (문체의 영향은 극히 미미했습니다. 자신의 문체일 때 1건 정도 너그러워지는 조짐은 있었으나, 노이즈와 구분할 수 없는 범위였습니다.)

벗기기 ②: 그 능력 차이는 벤더 고유의 것인가. 그렇다면 Claude는 이 결함을 영원히 간파할 수 없는 걸까요? Claude 심사에 "각 식을 구체적인 수치로 검산한 뒤에 판단하라"라고 한 마디 덧붙이는 것만으로, 탐지 능력은 완전히 바뀌었습니다.

Claude 심사에 대한 지시수학적 결함 탐지
없음 (전절과 동일)6건 중 0건
"각 식을 수치로 검산하라" 추가6건 중 6건

모두가 스스로 반례 수치를 대입하여 결함을 찾아낼 수 있게 된 것입니다. = 능력 차이조차 벤더를 바꾸지 않고 프롬프트 (Prompt)로 회복할 수 있습니다. "이종 모델이 아니면 안 되는" 부분은 여기서도 사라졌습니다.

여기까지 오면, "이종 모델이 결함을 찾아낸" 효과는 자기 선호도 벤더 고유의 힘도 아닌, 프롬프트로 채울 수 있는 검산 습관으로 변해 있었습니다. ——하지만, 정작 중요한 자기 선호 그 자체는 아직 올바른 경기장에서 측정하지 못했습니다.

6. 올바른 경기장에서 다시 측정하기 — 그리고 효과는 모델의 차이조차 아니었다

문헌과 동일한 경기장을 마련했습니다. 정답이 없는 주관적 태스크 ("이 기능에서는 어떤 테스트 관점을 우선해야 하는가"라는 방침 메모)를 선택하고, 실제로 손에 쥐고 있던 과거 사양 30건(기능명은 일반화함)을 대상으로 Claude와 Codex 양측에 쓰게 하고, 양측 모두 채점하게 한 뒤, 제시 순서도 뒤바꾸어 평균(후술할 위치 편향을 상쇄하기 위해)을 내어 측정했습니다.

각 심사가 "자신의 안"을 선택한 비율은 다음과 같았습니다 (편향이 0이라면 둘 다 0.50, 합계 1.00이 되어야 합니다):

채점자자신의 안을 선택한 비율
Claude 심사0.17
Codex 심사0.88
합계1.05 (편향 없음 = 1.00)

합계가 1.00을 약간 초과하는 부분은 양측이 서로를 치켜세우는 "내 편 챙기기(nepotism)\

연재 제2편에서 "같은 베이스의 LLM을 역할만 바꾼 구성은 독립성이라는 이름에 걸맞지 않다"라고 썼습니다. 본고는 그 **실측편 (Empirical study)**입니다. 독립성을 진정으로 만드는 레버(Lever)는 분명히 존재합니다. 다만 언제·어디서 효과가 나타나는가는 명목상의 기대치가 아니라, 측정해 보고 나서야 알 수 있는 문제입니다. 그리고 실제로 측정해 보니, 효과가 나타나는 범위는 생각보다 훨씬 좁았으며, 더 수수한(지미한) 처방이 우선이었습니다.

참고 문헌

  • Panickssery et al. 2024「LLM Evaluators Recognize and Favor Their Own Generations」(arXiv:2404.13076, NeurIPS 2024)— 자기 선호(Self-preference)와 자기 인식(Self-recognition)의 인과관계 (인식을 높이면 선호도 높아짐)
  • Wataoka et al. 2024「Self-Preference Bias in LLM-as-a-Judge」(arXiv:2410.21819)— 인간 평가를 기준으로 한 자기 선호의 정의 (사실의 정오가 아닌 스타일 일치), 메커니즘은 퍼플렉시티(Perplexity, 친근성). 8개 모델 중 GPT-4에서 최대 수치 관측
  • Zheng et al. 2024「Judging LLM-as-a-Judge (MT-Bench / Chatbot Arena)」(arXiv:2306.05685)— 위치 편향(Position bias) 등 LLM 심사의 기지 편향(Known bias)
  • Chen et al. 2025「Do LLM Evaluators Prefer Themselves for a Reason?」(arXiv:2504.03846)— 자기 선호를 "정당함/유해함"으로 분리. 강력한 모델은 자기 선호가 크지만 대부분 정당하며, 오답 시에 유해함이 두드러짐 (Scaling은 조건부)
  • Roytburg et al. 2026「Are LLM Evaluators Really Narcissists? Sanity Checking Self-Preference Evaluations」(arXiv:2601.22548)— 교란 변수(Confounding, 평가 불확실성) 통제 시 선행 지식의 유의성은 약 절반 수준. 회의론 측의 재분석

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0