
5개의 프런티어 LLM이 1,000개의 실제 사실 확인(fact-check) 주장 중 67%에서 의견 불일치를 보임
요약
5개의 프런티어 LLM을 대상으로 1,000개의 사실 확인 주장을 분석한 결과, 67%의 사례에서 모델 간 의견 불일치가 발생했습니다. 모델들의 판결은 구조적 일관성을 보이지만, 단일 심판으로 간주하기에는 한계가 있으며 다수결 결과가 항상 정답을 보장하지 않음을 시사합니다.
핵심 포인트
- 프런티어 모델 간 사실 확인 의견 불일치율 67% 기록
- 모델 간 불일치는 단순 보정을 넘어선 실질적 차이 포함
- 다수결 결과가 항상 정답(Ground Truth)은 아님을 경고
- 만장일치 사례(33%)에서도 공통된 사각지대 존재 가능성
1프런티어 모델들이 불일치하는 빈도
주장의 67%(672 / 1,000; 95% CI: 64–70%)에 대해, 프런티어 패널(frontier panel)은 의견이 일치하지 않습니다. 즉, 적어도 하나의 모델이 다수결 결과에 반대하거나, 엄격한 다수결이 형성되지 않았습니다. 세부 분석은 다음과 같습니다:
우리가 살펴본 각 주장에 대해 5개의 프런티어 판결을 확인하고 다음과 같이 질문했습니다: 적어도 3개가 동일한 답변을 선택했는가(엄격한 다수결)? 만약 그렇다면, 나머지 모델 중 몇 개가 반대했는가? 만약 명확한 다수결이 나타나지 않고 — 판결이 3개 또는 4개의 서로 다른 버킷(bucket)으로 나뉘었다면 — 해당 주장은 모델 분산, 다수 없음(Models split, no majority) 행에 포함됩니다. 이러한 주장 대부분은 골드 라벨(gold label)이 부착된 학습 코퍼스(training corpus)에 나타날 가능성이 낮습니다. 즉, 패턴 매칭을 할 수 있는 정전적(canonical) 정답지나 기준이 될 벤치마크 리더보드(benchmark leaderboard)가 존재하지 않습니다.
아래에서는 "다수(majority)"와 "다수에 대한 반대(dissent from the majority)"라는 용어를 사용합니다. 프런티어 모델들의 다수결이 곧 정답(ground truth)은 아닙니다. 다수결 결과가 때로는 틀릴 수 있으며, 반대 의견을 낸 개별 모델이 때로는 맞을 수도 있습니다. 우리는 다수결을 정답의 대용물이 아니라, 불일치를 측정하기 위한 구조적 참조점(structural reference point)으로 사용합니다.
| 프런티어 판결 패턴 | 주장 수 | 코퍼스 내 비중 |
|---|---|---|
| 5개 모두 일치 (만장일치) | 328 | 33% 30–36% |
| ... | ||
| 패널 일치도: Krippendorff’s α (서열형) = 0.639 (n=1,000개 주장, 5명의 평가자). | ||
| 이는 무시할 수 없지만 제한적인 일치도를 나타냅니다. 즉, 모델들의 판결은 무작위적이기보다는 구조적이지만, 패널을 하나의 교체 가능한 단일 심판으로 취급할 만큼 일관적이지는 않습니다. | ||
| 서열형 α(Ordinal α)는 순서형 범주 척도(True / Mostly True / Misleading / False)를 위한 표준 Krippendorff 변형 방식입니다. 지표 선택에 대해서는 §7.5 통계 분석(Statistical analysis)을 참조하십시오. |
모델 오류의 하한선. 각 주장에 대해 4개의 판결 버킷 중 정확히 하나만이 정답입니다. 패널에서 가장 인기 있는 버킷이 정답이라고 가정한다면 — 이는 가장 관대한 가정입니다 — 잘못된 판결을 선택한 모델의 최소 개수는 다음과 같습니다:
≥1개 모델이 오답 — 주장 중 67%에서 (만장일치가 아닌 모든 경우)
≥2개 모델이 오답 — 주장 중 45%에서 (3-2, 3-1-1 또는 과반수 없음 분할)
≥3개 모델이 오답 — 주장 중 13%에서 (어떤 버킷도 과반수에 도달하지 못하므로, 최대 2개만이 정답일 수 있음)
"가장 인기 있는 버킷이 정답이다"라는 가정을 완화하면 이러한 수치는 높아질 뿐, 결코 낮아지지 않습니다. 실제 오류율은 이보다 더 높을 가능성이 큽니다. 다섯 모델이 모두 동의하는 33%의 사례조차 공통된 사각지대(blind spots)를 포함하고 있을 수 있으며, 실제로 그러할 가능성이 높습니다.
2 실질적 불일치 vs 뉘앙스 불일치 (Substantive vs nuance disagreement)
주장의 34%(343 / 1,000; 95% 신뢰 구간(CI): 31–37%)에서, 최소 두 개의 프런티어 모델이 당사의 4개 버킷 루브릭(rubric) 기준으로 2개 이상의 버킷 차이가 나는 판결을 선택했습니다. 이는 보정(calibration)을 넘어선 불일치입니다.
모든 불일치가 동일한 것은 아닙니다. "True(참)" 대 "Mostly True(대체로 참)"의 분할은 신뢰도 보정(confidence-calibration)의 변화입니다. 반면 "True(참)" 대 "False(거짓)"의 분할은 정답에 대한 실질적인 불일치(substantive disagreement)입니다. 우리는 이를 각 주장에 대한 5개 판결 사이의 **최대 쌍별 버킷 거리(max pairwise bucket distance)**로 측정하며, 판결 순서는 True (0) → Mostly True (1) → Misleading (2) → False (3)로 정렬됩니다.
| 거리 | 해석 | 주장 수 | 비중 |
|---|---|---|---|
| 0 | 완전한 만장일치 (5개 모델 모두 동일한 버킷 선택) | 328 | 33% (30–36%) |
| ... | |||
| 주의 사항. 버킷 거리는 True / Mostly True / Misleading / False를 서열 척도(ordinal scale)로 취급합니다. 동일한 간격으로 해석하는 것은 단순화된 방식입니다. 2개 버킷의 격차는 여전히 루브릭의 모호성, 시간적 프레이밍(temporal-framing)의 차이, 또는 "Misleading(오도하는)"에 대한 서로 다른 해석을 반영할 수 있습니다. 우리는 이를 오류 크기의 지표가 아닌, 거친 수준의 "실질적 vs 뉘앙스" 지표로 보고합니다. |
3 모델 간 일치도 (Model-vs-model agreement)
가장 높은 동료 일치도(peer agreement): Gemini 3 Pro × Gemini 3 Pro + Search (75%) — 이들이 기본 모델(base model)을 공유한다는 점을 고려하면 놀라운 결과는 아닙니다. 가장 낮은 일치도: Claude Opus 4.7 × Gemini 3 Pro, Claude Opus 4.7 × Gemini 3 Pro + Search, 그리고 Gemini 3 Pro × Sonar Pro (53%) — 세 쌍이 최저치에서 동률을 기록했습니다.
코퍼스(corpus) 내의 모든 주장에 대해 각 프런티어 모델 쌍이 동일한 판결 라벨을 선택한 빈도입니다.
| GPT-5.4 | Claude Opus 4.7 | Gemini 3 Pro | Gemini 3 Pro + Search | Sonar Pro |
|---|---|---|---|---|
| GPT-5.4 | ||||
| — | 65% 62–68% | 65% 62–68% | 60% 57–63% | 60% 57–63% |
| Claude Opus 4.7 | 65% 62–68% | — | 53% 50–56% | 53% 50–56% |
| Gemini 3 Pro | 65% 62–68% | 53% 50–56% | — | 75% 72–77% |
| Gemini 3 Pro + Search | 60% 57–63% | 53% 50–56% | 75% 72–77% | — |
| Sonar Pro | 60% 57–63% | 58% 55–61% | 53% 50–56% | 58% 55–61% |
모델별 행동 분석 (4Per-model behavior)
다섯 개의 모델에 대한 두 가지 관점: 각 모델이 판결을 어떻게 분배하는지(4.1), 그리고 각 모델의 판결이 나머지 네 개 모델의 엄격한 다수 의견과 얼마나 자주 일치하는지(4.2).
4.1 판결 분포 (Verdict distribution)
일부 모델은 '참/거짓' 극단에 판결을 집중시키는 반면, 다른 모델들은 중간 두 범주에 더 광범위하게 분산시킵니다. 이는 모델 수준의 의사 결정 사전 확률(decision priors)이 특정 주장에 상호작용하는 것을 반영하며, 근거 진실(ground truth) 없이는 이 둘을 구분할 수 없습니다. 아래 표는 각 모델이 각 범주에 할당한 주장 비율을 보여주며, 각 셀 아래에는 95% Wilson 신뢰구간(CI)이 표시되어 있습니다.
| 모델 (Model) | 참 (True) | 주로 참 (Mostly True) | 오해의 소지가 있는 (Misleading) | 거짓 (False) |
|---|---|---|---|---|
| GPT-5.4 | 42% 39–45% | 16% 14–19% | 12% 10–14% | 30% 28–33% |
| Claude Opus 4.7 | 38% 35–41% | 26% 23–29% | 19% 17–22% | 17% 15–20% |
| Gemini 3 Pro | 54% 51–57% | 3% 2–4% | 3% 2–4% | 40% 37–43% |
| Gemini 3 Pro + Search | 52% 49–55% | 4% 3–5% | 9% 7–11% | 35% 32–38% |
| Sonar Pro | 35% 32–38% | 23% 21–26% | 16% 14–18% | 26% 23–28% |
4.2 패널 나머지 모델과의 일치도 (Agreement with the rest of the panel)
다섯 개의 모델에 걸쳐, 동료 다수 의견(peer-majority agreement) 범위는 **69%에서 81%**입니다. 이는 이 코퍼스 내의 동료 정렬(peer-alignment)이며 정확성(correctness)을 의미하지 않습니다. 여기서는 어떤 모델도 근거 진실로 취급되지 않으며, 적격 n (eligible n)은 행마다 다릅니다.
각 모델에 대해, 그 판결이 나머지 네 개 모델의 엄격한 다수 의견(≥3/4)과 일치하는 빈도는 얼마나 될까요? 주장은 오직 나머지 네 개 모델 사이에 ≥3/4의 다수가 존재하는 경우에만 적격합니다.
| 모델 | 동료 다수 의견과의 일치도 | 적격(Eligible) n | 부적격(Ineligible) | 티어 (Tier) |
|---|---|---|---|---|
| GPT-5.4 | 81% 78–84% | 650 | 350 | 파라메트릭 (parametric) |
| Claude Opus 4.7 | 70% 67–74% | 691 | 309 | 파라메트릭 (parametric) |
| Gemini 3 Pro | 77% 74–80% | 683 | 317 | 파라메트릭 (parametric) |
| Gemini 3 Pro + Search | 76% 73–79% | 693 | 307 | 검색 (retrieval) |
| Sonar Pro | 69% 66–73% | 675 | 325 | 검색 (retrieval) |
5 상세 결과
5.1 도메인별 프런티어 불일치 (Per-domain frontier disagreement)
행당 분모: 해당 도메인의 주장 수 (Claims 열).
| 도메인 | 주장 (Claims) | 모든 불일치 (Any disagreement) | 실질적 불일치 (Substantive, ≥2 buckets) | 다수 의견 없음 (No majority) |
|---|---|---|---|---|
| 금융 (Finance) | 75 | 67% 55–76% | 39% 28–50% | 20% 13–30% |
| 일반 (General) | 179 | 68% 60–74% | 40% 33–48% | 12% 8–17% |
| 건강 (Health) | 171 | 71% 64–78% | 29% 23–36% | 12% 8–17% |
| 역사 (History) | 131 | 53% 44–61% | 24% 17–32% | 13% 8–20% |
| 법률 (Legal) | 48 | 77% 63–87% | 40% 27–54% | 19% 10–32% |
| 정치 (Politics) | 168 | 70% 62–76% | 38% 31–46% | 8% 5–13% |
| 과학 (Science) | 151 | 68% 60–75% | 36% 29–44% | 21% 15–28% |
| 기술 (Tech) | 77 | 69% 58–78% | 31% 22–42% | 8% 4–16% |
5.2 판결별 패널 일치도 (Per-verdict panel agreement)
패널이 중간 버킷(middle bucket)에 도달할 때, 거의 수렴하지 않습니다. '대체로 사실 (Mostly True)' 및 '오도함 (Misleading)' 다수 의견은 최대 5%의 경우에만 만장일치에 도달하는 반면, '사실 (True)' 및 '거짓 (False)' 다수 의견은 43–47%의 도달률을 보입니다.
이와 일치하게, 다른 실제 말뭉치(단일 제품군 Llama-3 절제 연구를 포함한 17,856개의 PolitiFact 주장, Schwab et al. 2025)에 대한 연구에서도 팩트 체크 판결 모델들이 오류를 집중시키는 지점이 바로 미묘한 라벨(nuanced labels)임을 발견했습니다. 이는 다른 방법론적 설정(프런티어 패널이 아닌 단일 제품군 절제 연구)에서 얻은 유사한 관찰 결과입니다.
분모: 해당 판결에 대해 엄격한 ≥3/5 프런티어 다수가 존재하는 주장. 패널이 어떤 판결 영역에 대해 가장/가장 적게 확신하는지를 보여줍니다.
| 다수 판결 (Majority verdict) | 대상 n (Eligible n) | 만장일치 (5/5) | 다수 의견만 존재 (5명 중 3-4명) (Majority only (3-4 of 5)) |
|---|---|---|---|
| 참 (True) | 438 | 47% 42–51% | 53% 49–58% |
| 대체로 참 (Mostly True) | 76 | 0% 0–5% | 100% 95–100% |
| 오도함 (Misleading) | 74 | 5% 2–13% | 95% 87–98% |
| 거짓 (False) | 280 | 43% 37–49% | 57% 51–63% |
다른 관점에서 보면 — 5개의 프런티어 모델(frontier models)이 모두 동일한 판결로 수렴한 328개의 주장에 대한 판결 분포는 다음과 같습니다:
| 만장일치 판결 (Unanimous verdict) | 주장 (Claims) | 만장일치 점유율 (Share of unanimous) |
|---|---|---|
| 참 (True) | 204 | 62% 57–67% |
| ... |
6 데이터 (Data)
1,000개의 주장 (1,000 claims) — 아래 '제외 사항 (Exclusions)' 항목에 나열된 모든 적격성 필터를 통과한, 팩트 체크 플랫폼에 제출된 가장 최근의 실제 사용자 제출물입니다. 이 주장 중 2026년 2월 15일보다 오래된 것은 없습니다. 별도로 명시되지 않는 한, 이 페이지의 모든 지표는 이 집합을 분모로 사용합니다. 다른 분모를 사용하는 표(예: 특정 판결에 대해 엄격한 ≥3/5 프런티어 다수가 존재하는 주장)는 표 내에 이를 명시합니다.
출처 (Provenance)
이 주장들은 팩트 체크 플랫폼인 Lenz에 제출되었습니다. 우리는 이 코퍼스(corpus)를 선택했는데, 이는 선별된 벤치마크 항목이 아니라 유기적인 실제 세계의 팩트 체크 요청을 나타내기 때문입니다. 본 분석에서는 각 주장에 대한 Lenz 자체의 판결을 사용하지 않습니다 — 이 논문은 Lenz 대 프런티어 모델의 대결이 아니라, 프런티어 모델 간의 불일치(disagreement)만을 측정합니다.
주장 정규화 (Claim normalization)
CSV의 atomic_claim 필드는 사용자의 원문 제출물이 아닙니다. 이는 감정적인 언어와 편향을 제거하고, 입력을 제출 날짜에 고정된 단일한 중립적이고 테스트 가능한 명제로 추출하는 Lenz의 프레이밍(framing) 단계의 결과물입니다. 프런티어 모델들은 원문이 아닌 프레이밍된 주장에 대해 평가되었습니다. 예를 들어, *"캐나다 당국이 성경을 인용한다는 이유로 기독교인들을 감옥에 처넣고 있습니다!!!"*라고 입력한 사용자는 *"2026년 4월 4일 기준으로, 캐나다 당국은 기독교 신앙 때문에 성경을 공개적으로 인용했다는 이유로 개인들을 투옥했다."*라는 명제에 대해 평가를 받게 됩니다.
제외 사항 (Exclusions)
코퍼스에서 제외되는 항목은 다음과 같습니다:
- 제출한 사용자가 비공개(private)로 표시한 주장
- 플랫폼 스태프, 내부 계정, 또는 에이전트/API 제출을 통한 주장 (코퍼스에는 실제 사용자의 웹 제출물만 포함됨)
- 편집 상태(editorial status)가
pending(아직 검토되지 않음) 또는hidden(편집 검토 후 게시 중단되었거나, 제출 시 Lenz의 PII(개인 식별 정보) 스크리닝 단계에서 비공개 인물의 개인 정보가 포함되어 자동으로 플래그가 지정됨)인 주장 - 유사 주장 (Near-duplicate claims) —
atomic_claim의OpenAItext-embedding-3-small임베딩 (1536차원) 상에서 코사인 거리(cosine distance)가0.2이내인 쌍은 하나의 정준 행(canonical row)으로 병합됩니다. 명제가 시간에 따라 변하는 경우 새로운 주장이 정준이 되며, 그렇지 않은 경우 Lenz에서 조회수가 가장 많은 기존 주장이 우선권을 갖습니다. 이 코퍼스에는 정준 주장만 나타납니다. - 한 번의 재시도 후에도 5개의 프런티어 모델 중 최소 하나가 파싱 가능한 판결(parseable verdict)을 내놓지 못한 주장. 이러한 잔여 오류의 대부분은 가끔 잘못된 형식의 응답을 반환하는 Gemini의 근거 기반 검색(grounded-search) API에서 발생하며, 나머지는 드문 Anthropic의 거부(refusals) 사례입니다. 5개 모델 모두 성공한 주장만 코호트(cohort)에 포함됩니다.
- 180일이 경과한 주장 (수집 시점에 최신성 윈도우 적용)
기권(No Abstain) 옵션은 제공되지 않습니다 (강제 선택을 통해 모델 간 비교의 대칭성을 유지합니다). 파싱할 수 없는 출력(Unparseable outputs)은 판결 버킷(verdict bucket)으로 재분류되지 않으며, 파싱 오류가 발생한 주장은 전체 주장 코호트(complete-claim cohort)에서 제외됩니다.
7.3 LLM 호출 설정 (LLM call configuration)
5개 모델 모두 동일한 시스템 플레이스홀더 (.)와 동일한 사용자 프롬프트 템플릿 (usr_v2)을 받았습니다. 구조화된 출력 스키마 (structured-output schema), 도구 호출 스키마 (tool-call schema), 시드 (seed), top-p, 또는 로짓 바이어스 (logit-bias) 제어는 사용되지 않았습니다. 수집기(harvester)는 지원되는 경우 결정론적 디코딩 (deterministic decoding)을 요청했습니다 (temperature=0.0). GPT-5.4와 Claude Opus 4.7은 제공자 어댑터 (provider adapters)가 사용자 정의 온도 설정을 거부하기 때문에 명시적인 온도 설정 없이 호출되었습니다. 출력 길이는 GPT-5.4, Claude Opus 4.7, Sonar Pro의 경우 16 토큰으로 제한되었습니다. Gemini 3 Pro와 Gemini 3 Pro + Search는 1024 토큰 제한을 사용했습니다 (수집기 개발 중 더 낮은 제한을 사용했을 때 제공자 측 오류가 발생했습니다). Gemini 3 Pro + Search는 Google Search 그라운딩 (grounding)을 활성화했습니다. Sonar Pro는 Perplexity의 검색 기반 API를 통해 검색 증강 (retrieval-augmented) 방식으로 처리되었습니다. 파싱 가능한 출력은 정규화(normalization) 후에 반드시 4개의 라벨 중 정확히 하나와 일치해야 했습니다.
7.4 채점 (Grading)
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기