12개의 AI 모델에게 월드컵 예측을 맡겨보았습니다. 첫 169개의 선택에서 이미 패턴이 나타나고 있습니다.

저는 12개의 AI 모델을 공개적인 월드컵 예측 아레나(World Cup prediction arena)에 투입했습니다.

누군가가 베팅을 위해 LLM (대규모 언어 모델)을 사용해야 한다고 생각해서 한 일은 아닙니다. 그래서는 안 됩니다. 해당 페이지에 '오락용'이라고 명시된 데에는 이유가 있습니다.

제가 이 실험을 한 이유는 스포츠 예측이 모델들을 테스트하기 위한 놀라울 정도로 깔끔한 스트레스 테스트 (stress test)이기 때문입니다:

구조화된 사실 (structured facts)
오래된 사전 지식 (stale priors)
불확실성 (uncertainty)
보정 (calibration)
가성비 (price-performance)
그리고 LLM에게 가장 고통스러운 것: 우세한 팀이 비길 수도 있다는 사실을 인정하는 것

169개의 예측과 21개의 확정된 점수 항목이 지나간 후, 리더보드(leaderboard)는 기술적으로 동점 상태입니다.

하지만 틀린 예측들이 이미 맞춘 예측들보다 더 유용합니다.

요약 (TL;DR)

아니요, 아직 "최고의 월드컵 AI 모델"은 없습니다. 표본이 너무 작습니다.
12개의 모델이 현재 3점으로 동점입니다.
Qwen3.5 Flash, Claude Opus 4.7, Claude Sonnet 4.6은 100% 승자 정확도를 보이지만, 이는 각각 단 하나의 확정된 경기 전 예측에 기반한 결과입니다.
12개 모델 모두 콜롬비아가 우즈베키스탄보다 우세할 것이라는 방향은 맞췄습니다.
유효한 9개의 경기 전 모델들은 모두 포르투갈이 콩고 민주 공화국과 1-1로 비길 것을 맞추지 못했는데, 그 이유는 포르투갈의 승리를 선택했기 때문입니다.
초기 교훈은 "플래그십 모델이 승리한다"가 아닙니다. "정배당 편향 (favorite bias)은 실재하며, 저렴한 모델들도 대규모 조사를 수행하기에 충분히 훌륭하다"는 것입니다.

전체 실시간 스코어보드: WorldCup AI Arena

실제로 추적한 항목

공개 대시보드는 모델의 예측, 경기 결과, 팀 컨텍스트 (context), 그리고 예측 정확도를 추적합니다.

여기에 사용된 스냅샷: 2026-06-18 05:53 UTC.

지표	값
추적된 모델 수	12
...

모델 목록에는 Claude, GPT, Gemini, DeepSeek, Qwen, Kimi, 그리고 Grok의 변형 모델들이 포함되어 있습니다.

중요한 주의사항: 저는 정확도를 측정할 때 경기 전 예측 (pre-match predictions)만을 집계합니다. 경기 후 리뷰는 설명에는 유용하지만, 결과가 이미 알려진 상태입니다. 그것은 예측이 아닙니다.

현재 리더보드

현재 모든 모델이 3점을 보유하고 있습니다.

표본 크기를 확인하기 전까지는 지루하게 들릴 수도 있습니다.

모델 (Model)	티어 (Tier)	예측 (Predictions)	확정 (Settled)	승자 적중 (Winner hits)	점수 (Points)	정확도 (Accuracy)
Qwen3.5 Flash	wildcard	13	1	1	3	100%
...

제 견해: 리더보드가 승자를 가려내기에는 아직 충분히 성숙하지 않았습니다.

첫 번째 유의미한 신호는 다른 곳에 있습니다.

명확한 매치: 모두가 콜롬비아를 맞혔습니다

우즈베키스탄 대 콜롬비아 경기는 1-3으로 끝났습니다.

12개 모델 모두 콜롬비아를 선택했습니다.

정확한 스코어를 맞힌 모델은 없었습니다.

모델 (Model)	예측 (Prediction)	최종 결과 (Final)	승자 적중 (Winner hit)
Claude Opus 4.7	0-2 콜롬비아	1-3 콜롬비아	예 (Yes)
...

이런 종류의 매치에서는 저렴한 모델로도 충분할 수 있습니다.

단순히 "어느 쪽이 더 가능성이 높은가"만 알면 된다면, 모든 선택에 플래그십 (Flagship) 모델 비용을 지불하는 것보다 저렴한 모델들을 투표(polling)하는 것이 더 나을 수 있습니다.

유의미한 실수: 모든 유효한 모델이 포르투갈-콩고 민주 공화국 경기를 놓쳤습니다

포르투갈 대 콩고 민주 공화국 경기는 1-1로 끝났습니다.

경기 전 예측을 수행한 모든 유효한 모델이 포르투갈을 선택했습니다.

모델 (Model)	예측 (Prediction)	최종 결과 (Final)	결과 (Outcome)
GPT-5.4	2-0 포르투갈	1-1	미스 (Miss)
...

제가 주목하는 부분은 바로 이 지점입니다.

모델들이 단순히 독립적으로 운이 없었던 것이 아닙니다. 그들은 동일한 사전 지식 (Prior)을 공유하고 있었습니다: 포르투갈은 강하고, 콩고 민주 공화국은 더 약하므로, 따라서 포르투갈이 승리한다.

이것은 전형적인 LLM (Large Language Model) 실패 모드입니다.

이는 스포츠 외의 분야에서도 나타납니다:

"OpenAI는 보통 X를 출시하니까, 다음 릴리스도 X일 것이다"
"Claude는 프리미엄 모델이니까, 이 작업에서도 반드시 이길 것이다"
"유명한 팀/벤더/인물이라면 아마 정답일 것이다"
"과거의 품질이 현재의 불확실성을 압도한다"

다시 말해, 월드컵은 심각한 평가 (Eval) 문제를 보여주는 귀여운 인터페이스일 뿐입니다. 모델들은 종종 명성을 확신으로 변환하려는 경향이 너무 강합니다.

비용 관점

대시보드에는 각 모델의 공시 가격 티어가 포함되어 있습니다.

재미있는 점은 다음과 같습니다: 현재 가장 저렴한 모델의 행이 가장 깔끔해 보인다는 것입니다.

모델 (Model)	공시된 입력/출력 가격 (Listed input / output price)	현재 결과 (Current result)
Qwen3.5 Flash	1M 토큰당 $0.026 / $0.263	1/1 승자 적중
...

이를 과하게 해석하지는 마십시오. 단 한 번의 매치로 증명할 수는 없습니다.

하지만 유닛 이코노믹스 (Unit economics)를 무시하기는 어렵습니다.

하나의 예측 프롬프트가 10K 입력 토큰 (input tokens)과 1K 출력 토큰 (output tokens)을 사용한다고 가정해 봅시다.

대략적인 비용:

Qwen3.5 Flash:
10K * $0.026 / 1M + 1K * $0.263 / 1M = $0.000526

...

이는 예측 형태의 호출 한 번에 약 143배의 차이가 발생하는 것입니다.

만약 제가 예측 시스템을 구축한다면, 모든 경기를 가장 비싼 모델에게 보내지는 않을 것입니다. 대신 라우팅 (routing)을 할 것입니다.

def pick_prediction_route(match_uncertainty, model_disagreement, budget_mode):
    if budget_mode == "cheap_poll":
        return ["qwen3.5-flash", "gpt-5-nano", "deepseek-v4-flash"]
...

넓은 범위를 커버하기 위해서는 저렴한 모델을 사용하고, 의견 불일치가 발생할 때는 비싼 모델을 사용합니다.

이는 제가 일반적인 API 워크로드 (API workloads)에 사용하는 라우팅 로직과 동일합니다.

다음에 측정할 항목

승자 정확도 (Winner accuracy)만으로는 충분하지 않습니다.

저는 다음과 같은 지표들을 원합니다:

지표 (Metric)	중요한 이유
승자 정확도 (Winner accuracy)	기본적인 방향성
...

가장 중요한 것은 무승부 재현율 (draw recall)입니다.

포르투갈 대 콩고 민주 공화국 경기는 이미 모델들이 명성 있는 팀이 참여할 때 무승부를 과소 예측할 수 있음을 시사합니다.

만약 그 패턴이 유지된다면, 이는 리더보드 (leaderboard)보다 더 중요합니다.

만약 제가 이를 실시간으로 추적한다면

모델당 최소 30~50개의 경기 전 예측 (pre-match predictions)이 확정될 때까지는 승자를 선언하지 않을 것입니다.

현재로서는:

모든 경기를 추적합니다.
경기 후 리뷰를 정확도 계산에서 제외합니다.
정답을 맞힌 승자당 비용을 기준으로 저렴한 모델과 플래그십 (flagship) 모델을 비교합니다.
무승부 예측률을 관찰합니다.
베팅 시장이나 Elo 점수로부터 베이스라인 (baseline)을 추가합니다.
매 경기일 이후에 업데이트합니다.

데이터가 인용된 전체 글과 실시간 링크를 원하신다면, 제가 작성한 원문 분석 내용을 여기서 확인하실 수 있습니다: AI World Cup Predictions 2026: 12 Models, Early Leaderboard.

공개 사항: 저는 TokenMix의 연구 부문에서 근무하고 있으며, 그렇기에 이러한 다중 모델 스코어보드를 빠르게 구축할 수 있습니다.

결론

초기 월드컵 AI 리더보드가 어떤 모델이 최고인지 아직 알려주는 것은 아닙니다.

그것은 우리에게 유용한 무언가를 알려줍니다. 저렴한 모델들도 확실한 우승 후보들에 대해서는 플래그십 (flagship) 모델들의 합의된 의견과 일치할 수 있으며, 모든 모델이 무승부에 대해 동일한 잘못된 사전 확률 (bad prior)을 공유할 수 있다는 점입니다.

이것은 모델 평가 (model-evaluation)에 관한 교훈이지, 베팅 조언이 아닙니다.

만약 당신이 이것을 점수화한다면, 정확한 스코어에 높은 가중치를 두겠습니까, 아니면 대신 보정된 확률 (calibrated probabilities)에 집중하겠습니까?