본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 05. 29. 13:30

AI 리더보드 가이드 2026 — 용도별 추천 사이트 정리

요약

AI 모델의 성능을 비교하는 리더보드와 벤치마크의 차이점을 설명하고, 용도별로 최적화된 추천 리더보드 사이트를 정리합니다. 수학, 코딩, 멀티모달, 오픈 소스 등 목적에 맞는 평가 지표 활용법을 안내합니다.

핵심 포인트

  • 벤치마크는 테스트 자체이며, 리더보드는 그 결과를 랭킹화한 사이트임
  • LLM Stats는 모델의 성능, 가격, 속도를 종합적으로 비교하기 좋음
  • 수학적 강점은 AIME, 멀티모달은 LMSYS Chatbot Arena가 유용함
  • 오픈 소스 모델 활용 시 Open LLM Leaderboard를 참고할 것

Opus 4.8이 출시된 것을 계기로, 다시 한번 정리해 보았습니다.

"어떤 AI 모델이 가장 강력한가?"를 조사할 때 자주 눈에 띄는 것이 리더보드(Leaderboard)입니다.

이 기사에서는 용도별 추천 리더보드 사이트와 그 토대가 되는 벤치마크(Benchmark)의 기초 지식을 정리합니다.

다음의 두 가지는 조금 비슷해 보이지만, 완전히 다른 것입니다.

구분예시
벤치마크 (Benchmark)AI의 능력을 측정하는 테스트·시험 그 자체
리더보드 (Leaderboard)벤치마크 결과를 모아서 모델을 랭킹화한 사이트

관계성을 도식화하면 다음과 같습니다.

【벤치마크】 각 모델을 개별적으로 테스트
GSM8K / MMLU / SWE-bench ...
↓ 결과 집약
...

이 기사의 메인은 리더보드 (비교 사이트) 입니다.

벤치마크 자체에 대한 해설은 후반부의 "덤" 섹션에 정리되어 있습니다.

용도추천 사이트
우선 전체적인 파악을 하고 싶다LLM Stats
...
300개 이상의 모델을 GPQA·SWE-Bench·가격 등으로 비교. 스코어가 상시 업데이트되므로 "지금 가장 강력한 모델은 무엇인가?"를 간편하게 확인할 수 있다. 가격·속도도 동시에 확인할 수 있다.

이런 분들께 추천: 모델 선택을 막 시작하여, 우선 전체적인 감을 잡고 싶은 사람

222종류의 벤치마크 결과를 237개 모델로 횡단 비교할 수 있다. 벤치마크별 신뢰도 (검증됨/미검증) 도 표시되므로, 데이터의 질까지 확인할 수 있다는 점이 우수하다.

이런 분들께 추천: 특정 벤치마크로 세밀하게 비교하고 싶거나, 데이터의 근거까지 신경 쓰는 사람

성능뿐만 아니라 속도·레이턴시(Latency)·가격을 독자적으로 실측하고 있다는 점이 특징. 각 모델의 자기 신고 데이터에 의존하지 않으므로 신뢰성이 높다.

이런 분들께 추천: API 비용을 고려하며 모델을 선택하고 싶은 개발자

추론·코딩·수학·다국어 태스크의 벤치마크를 정리하여 알기 쉽게 표시. 가격·속도 데이터도 게재되어 있어 실용적인 모델을 선택하는 데 적합하다.

이런 분들께 추천: 코딩이나 실무 용도로 모델을 비교하고 싶은 개발자

AIME (전미 수학 초청 시험) 등 올림피아드 수준의 문제로 모델을 평가하는 리더보드. 수학적 강점을 중시한다면 이곳이 유일한 선택지다.

이런 분들께 추천: 수리 계열 태스크에 사용할 모델을 고르고 싶은 사람

87만 표 이상의 인간 투표에 기반한 비전 모델 랭킹. 캡션·OCR·도해 등 용도별 필터도 있어 실용적이다.

이런 분들께 추천: 이미지 인식·멀티모달(Multimodal) 계열의 모델을 고르고 싶은 사람

Llama·Qwen·Mistral 등 공개 가중치(Open Weights) 모델에 집중한 평가. 직접 호스팅하거나 파인튜닝(Fine-tuning)하고 싶은 사람을 위한 곳.

이런 분들께 추천: 오픈 소스 모델을 사용하고 싶거나, 직접 호스팅하고 싶은 사람

스탠퍼드 대학교가 연 1회 정리하는 연례 보고서. 트렌드 분석이나 정책 연구의 참고 자료로도 사용된다.

이런 분들께 추천: AI 동향을 학술적으로 파악하고 싶은 연구자·학생

리더보드의 숫자 의미를 이해하기 위해, 대표적인 벤치마크도 짚고 넘어갑니다.

벤치마크내용비고
GSM8K초등학교 수준의 수학 문장제 8,500문항기초 추론의 정석
MATH경시 수학 수준의 문제프론티어 모델 간의 차이가 나타나기 쉬움
HellaSwag문장의 다음 내용을 4지선다에서 고르는 상식 추론인간은 95% 정답
BBH논리·추론 등 23종의 난제 모음암기만으로는 풀 수 없도록 설계됨
벤치마크내용비고
MMLU57개 분야·57,000문항의 4지선다 문제유명하지만 상위 모델은 포화 상태 경향
MMLU-ProMMLU의 강화 버전 (10지선다)아직 차이가 나타나기 쉬움
GPQA Diamond물리·화학·생물 대학원 수준의 초고난도 문제PhD 보유자도 정답률 65%
벤치마크내용비고
HumanEvalPython 함수 구현 문제 164문항정석적이지만 포화 상태 경향
SWE-bench실제 GitHub 이슈를 해결할 수 있는지 평가현재 가장 주목받고 있음
벤치마크 (Benchmark)내용비고
Chatbot Arena인간이 AI 간의 답변을 익명으로 비교 투표실제 사용감에 가장 가까움
TruthfulQA할루시네이션 (Hallucination, 거짓 정보 생성) 여부를 평가오해하기 쉬운 질문들을 모아둠
OSWorldPC 화면 조작을 통해 태스크를 수행할 수 있는지 평가에이전트 (Agent) 평가의 대표격
HLE (Humanity's Last Exam)전문가가 만든 각 분야의 초고난도 문제집2026년 Nature 게재 예정인 최난관 문제

벤치마크에는 포화 (Saturation) 라는 문제가 있습니다. 상위 모델들이 일제히 90%를 넘어서게 되면, 더 이상 모델 간의 차이를 구분하기 어려워집니다.

포화된 벤치마크 (참고용)

  • MMLU → 상위 모델들이 90%를 초과하며 비슷한 수준을 유지
  • HumanEval → 마찬가지로 차이를 구분하기 어려움

현재 차이가 나타나기 쉬운 벤치마크

  • GPQA Diamond
  • SWE-bench
  • HLE (Humanity's Last Exam)

리더보드 (Leaderboard)를 볼 때는 "어떤 벤치마크를 사용하고 있는가"에도 주목하면 더욱 정확한 비교를 할 수 있습니다.

본 기사에서는 유명한 LLM (Large Language Model)이 발표될 때 사용되는 평가 벤치마크와 리더보드에 대해 소개해 드렸습니다.

다양한 종류가 있으니, 반드시 자신의 목적과 용도에 맞는 것을 찾아보시기 바랍니다.

이 기사가 조금이라도 도움이 되었기를 바랍니다.

의견이나 감상 등이 있다면 언제든지 편하게 댓글로 남겨주시면 감사하겠습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0