
「IQ 136의 AI」는 어떻게 만들어지는가: AI 모델 선정 시 단일 스코어를 너무 믿어서는 안 되는 이유
요약
AI 모델의 성능을 IQ 스케일로 변환하여 보여주는 'AI IQ' 프로젝트의 구조와 방법론을 분석합니다. 단순 벤치마크 수치를 넘어 추론, 코딩, 에이전트 능력을 포함한 다차원적 평가 방식을 다룹니다.
핵심 포인트
- AI IQ는 여러 벤치마크 결과를 인간의 IQ 스케일로 변환한 지표임
- 단순 지식 측정을 넘어 에이전트적 추론 능력을 포함함
- 단일 IQ 스코어만 보고 모델을 선택하는 것은 위험함
- 추상 추론, 코딩, 수학 등 5가지 차원으로 능력을 구성함
안녕하세요, 엔지니어 5년 차 시마다입니다.
이 기사를 열어주셔서 감사합니다!
최근 새로운 프로젝트에서 사용할 AI 모델을 검토할 기회가 있었습니다.
GPT-5.5, Claude Opus 4.7, Gemini 3.1 Pro, Grok 4.3, DeepSeek-V3.2……
어느샌가 선택지가 너무 많아져서, 무엇을 기준으로 골라야 할지 알 수 없게 되었습니다.
모델의 선택지는 계속해서 늘어나고 있습니다.
게다가 각각의 모델이 발표될 때마다 다양한 벤치마크 (Benchmark) 결과가 나옵니다.
- SWE-bench
- FrontierMath
- Humanity's Last Exam
- GPQA
- ARC-AGI
- LiveCodeBench
- Terminal-Bench
모두 중요해 보입니다.
하지만 보면 볼수록,
결국, 어떤 모델이 가장 똑똑한 거지?
라는 의문으로 돌아오게 됩니다.
그럴 때 발견한 것이 Ledge.ai에서 소개되었던 AI IQ라는 프로젝트였습니다.
이름 그대로 AI 모델의 성능을 「IQ」와 같은 스케일로 보여주는 것입니다.
예를 들어 「이 모델은 IQ 135 상당」과 같이 보이면 상당히 직관적입니다.
다만, 동시에 조금 걸리는 점이 있었습니다.
그걸 정말 IQ라고 불러도 되는 걸까?
그 숫자만 보고 모델을 골라도 괜찮은 걸까?
궁금해져서 AI IQ의 공식 사이트와 방법론 (Methodology)을 읽어보았습니다.
결론부터 말씀드리면, AI IQ는 상당히 편리합니다.
하지만, 숫자만 보고 모델을 선택하는 것은 위험합니다.
이 기사에서는 AI IQ의 구조와 실무에서 어떻게 읽으면 좋을지를 정리합니다.
- AI IQ란 무엇인가
- AI IQ는 무엇을 측정하는가
- 스코어는 어떻게 만들어지는가
- AI IQ의 편리한 점
- 어떤 점이 위험한가
- 실무에서는 어떻게 사용해야 하는가
- API도 준비되어 있다
- 개인적으로 가장 중요하다고 생각한 것
- 요약
- 참고 링크
AI IQ는 Ryan Shea 씨가 공개한 AI 모델 평가 프로젝트입니다.
Ledge.ai의 기사에서는 GPT-5.5, Claude Opus 4.7, Gemini 3.1, Grok 4.3, Kimi K2.6, Qwen3.6, DeepSeek V4 등의 주요 AI 모델을 IQ 스케일로 비교하는 시도로 소개되고 있습니다.
여기서 가장 먼저 주의해야 할 점은, AI IQ는
AI에게 인간용 IQ 테스트를 그대로 받게 하는 사이트
가 아니라는 점입니다.
AI IQ는 여러 공개 벤치마크 (Benchmark) 결과를 집약하여, 그것을 인간의 IQ 스케일처럼 보이게 변환합니다.
즉, 대략적으로 말하자면 다음과 같습니다.
여러 AI 벤치마크
↓
각 벤치마크를 IQ 상당의 스코어로 변환
...
「IQ」라는 용어가 사용되고 있지만, 인간의 심리 측정으로서의 IQ와 완전히 동일한 것은 아닙니다.
어디까지나 AI 모델의 능력 차이를 직관적으로 읽기 위한 스케일입니다.
AI IQ의 공식 방법론 (Methodology)에 따르면, 현재의 IQ 스코어는 다음 5가지 차원으로 구성되어 있습니다.
| 차원 | 대략적으로 보고 있는 능력 | 대표적인 벤치마크 예시 |
|---|---|---|
| Fluid Abstraction | 처음 보는 패턴의 추상 추론 | ARC-AGI |
| ... |
개인적으로 흥미롭다고 생각한 점은, 단순히 「지식 문제를 풀 수 있는가」뿐만 아니라 코딩, 수학, 도구 활용, 에이전트적인 실행 능력까지 포함하고 있다는 점입니다.
최근의 AI 모델은 단순히 채팅만 하는 것이 아니라,
- 코드를 작성한다
- 버그를 수정한다
- 브라우저에서 조사한다
- 터미널을 조작한다
- 여러 단계의 작업을 진행한다
와 같은 방식으로 사용되는 경우가 늘어나고 있습니다.
그런 의미에서 AI IQ가 에이전트적 추론 (Agentic Reasoning)을 포함하고 있는 것은 상당히 현대적인 설계라고 생각했습니다.
AI IQ의 스코어 생성은 단순한 평균이 아닙니다.
이미지로 표현하자면 다음과 같은 흐름입니다.
포인트는 주로 3가지가 있습니다.
예를 들어, 어떤 벤치마크에서는 90점, 다른 벤치마크에서는 60점이었다고 해서 그것을 그대로 평균 내는 것이 아닙니다.
벤치마크마다 난이도나 스코어 분포가 다르기 때문입니다.
AI IQ에서는 각 벤치마크의 스코어를 「IQ 상당」의 값으로 변환합니다.
공식적으로는 수동으로 교정된 앵커 포인트 (Anchor Point)를 바탕으로 구간 선형 보간 (Piecewise Linear Interpolation)을 통해 변환한다고 설명되어 있습니다.
아주 대략적으로 말하자면,
이 벤치마크에서 이 점수라면, IQ 환산으로는 이 정도
이러한 변환 곡선(conversion curve)을 만들고 있는 것입니다.
이는 편리하지만, 동시에 주의도 필요합니다.
왜냐하면, 이 변환에는 설계자의 판단이 개입되기 때문입니다.
공식적으로도 앵커 보정(anchor calibration)에는 주관적인 요소가 있음을 인정하고 있습니다.
즉, "IQ 135"라는 숫자는 자연적으로 관측된 절대값이 아닙니다.
벤치마크 점수를 읽기 쉽게 만들기 위해 설계된 값입니다.
AI IQ에서는 모든 벤치마크를 동일한 가중치와 동일한 방식으로 취급하지 않습니다.
일부 벤치마크는 상위 모델들이 높은 점수로 나열되기 쉽거나, 훈련 데이터에 혼입(contamination)되었을 가능성이 의심되기도 합니다.
그러한 벤치마크는 점수가 높더라도 종합 IQ를 너무 끌어올리지 않도록 천장(ceiling)이 압축됩니다.
예를 들어, 다음과 같은 방식입니다.
| 종류 | 의미 | 취급 |
|---|---|---|
| Hard benchmark | 아직 변별력이 높고, 게임화(gaming)되기 어려움 | 높은 IQ 천장을 유지 |
| Compressed benchmark | 포화·오염·게임화 우려가 있음 | 상한을 압축하여 영향력을 억제 |
이것은 상당히 중요합니다.
"어떤 모델이 유명 벤치마크에서 높은 점수를 받았다" 하더라도, 그 벤치마크가 이미 포화 상태라면 AI IQ 상에서는 과도하게 평가되지 않도록 조정될 가능성이 있습니다.
개인적으로는 이 설계가 상당히 현실적이라고 생각했습니다.
한편으로는, 어떤 벤치마크를 어느 정도 압축할 것인가에도 판단이 들어갑니다.
이 부분 역시 "완전히 객관적인 랭킹"이라기보다 "설계된 평가 지표"로 읽어야 합니다.
AI 모델에 따라 모든 벤치마크 결과가 갖춰져 있지 않은 경우도 있습니다.
그럴 경우, 단순히 결측치(missing values)를 무시하고 평균을 내면 문제가 발생합니다.
예를 들어, 취약한 벤치마크만 측정되지 않은 모델이 겉보기에 더 높게 보일 수도 있기 때문입니다.
AI IQ에서는 결측된 값을 보수적으로 보완합니다.
공식 설명에 따르면, 이전 모델과의 관계나 동일 차원 내의 다른 벤치마크, 유사한 능력대의 모델을 사용하여 추정한다고 합니다.
여기서 중요한 것은, 보완된 값이 "진정한 점수"는 아니라는 점입니다.
어디까지나,
측정하지 않은 항목이 있음으로써 모델이 지나치게 유리해 보이지 않도록 하기 위한 보완
입니다.
그렇기 때문에 AI IQ에서는 순위 상태(Rank Status)도 제공됩니다.
| Rank Status | 의미 |
|---|---|
| Full | 충분한 데이터가 있음 |
| ... |
동일한 종합 IQ(Composite IQ)라도, Full인지 Partial인지에 따라 신뢰도는 달라집니다.
이 지점은 실무에서 모델을 선정할 때 상당히 놓치기 쉬운 포인트라고 생각합니다.
지금까지 주의점을 적어왔지만, AI IQ 자체는 상당히 편리합니다.
특히 좋다고 생각한 점은 다음 세 가지입니다.
AI 모델을 비교할 때 힘든 점은 정보가 너무 흩어져 있다는 것입니다.
어떤 모델은 SWE-bench에 강하고,
다른 모델은 수학에 강하며,
또 다른 모델은 대화 품질이 높습니다.
하지만 전체적으로 어떻게 봐야 할지 알 수 없습니다.
AI IQ는 그곳에 "종합 IQ (Composite IQ)"라는 공통된 관점을 제공해 줍니다.
물론 단일 점수에는 한계가 있습니다.
다만, 첫 번째 후보를 압축하는 데는 상당히 유용합니다.
종합 IQ뿐만 아니라 용도별로 강점을 확인할 수 있다는 점도 장점입니다.
예를 들어, 용도에 따라 바라봐야 할 축은 달라집니다.
| 용도 | 중시해야 할 차원 |
|---|---|
| 코딩 지원 | Programmatic Reasoning |
| ... |
"종합 1위 모델"을 고르는 것보다, 용도에 맞는 차원을 보는 것이 실무적입니다.
이 부분이 AI IQ를 제대로 활용하는 데 있어 가장 중요하다고 생각했습니다.
AI IQ에서는 IQ뿐만 아니라 유효 비용(Effective Cost)도 볼 수 있습니다.
모델 선정에서는 성능뿐만 아니라 비용도 중요합니다.
성능이 뛰어나더라도 사내에서 대량으로 사용하기에는 비용이 너무 높은 모델이 있습니다.
반대로, 성능은 조금 떨어지더라도 충분히 저렴하고 빠른 모델이 실무에는 더 적합할 수도 있습니다.
AI IQ가 IQ와 비용을 동시에 보여주는 것은 상당히 실무 중심적입니다.
"가장 똑똑한 모델"이 아니라,
우리들의 용도에 대해 충분히 똑똑하면서도 충분히 저렴한 모델은 무엇인가
를 생각하기 쉽게 만들어 줍니다.
한편으로, AI IQ를 그대로 믿는 것은 위험합니다.
이유는 크게 세 가지가 있습니다.
공식에서도 명시하고 있듯이, AI IQ에서의 IQ는 비유입니다.
인간의 심리 측정으로서의 IQ와, AI 벤치마크를 변환한 IQ 스타일의 점수는 같은 것이 아닙니다.
따라서,
「이 AI는 인간의 IQ 135와 동일한 지능을 가지고 있다」라고 읽는 것은 위험합니다.
보다 정확하게는,
「여러 AI 벤치마크 (Benchmark)를 통합했을 때, 인간의 IQ 스케일에 비유한다면 135 정도의 위치에 놓인다」
정도로 이해하는 것이 좋습니다.
조금 길지만, 이 거리감이 중요합니다.
AI IQ는 여러 공개 벤치마크를 바탕으로 한 이차 지표입니다.
즉, 근간이 되는 벤치마크의 품질에 크게 의존합니다.
이 부분이 어려운 지점입니다.
최근의 AI 벤치마크에는 몇 가지 문제가 있습니다.
- 상위 모델들이 높은 점수로 나열되어 차이가 잘 보이지 않음
- 문제나 정답이 훈련 데이터 (Training Data)에 혼입됨
- 테스트 설계상의 허점을 찌르는 듯한 최적화가 발생함
- 문제 자체에 오류나 모호함이 포함됨
- 벤치마크의 목적과 실무 태스크 (Task)가 어긋남
즉, AI IQ를 아무리 정성스럽게 통합하더라도, 상류의 벤치마크가 흔들리면 최종 스코어 (Score)도 흔들립니다.
이는 AI IQ만의 문제가 아니라, AI 평가 전체의 문제입니다.
LLM은 인간의 능력처럼 깔끔한 직선 형태로 나열되지 않습니다.
어떤 태스크에서는 굉장히 똑똑하지만, 다른 태스크에서는 놀라울 정도로 이상한 실수를 합니다.
코드는 강한데, 지시 추종 (Instruction Following)은 미묘합니다.
수학은 강한데, 일본어 사내 문서 작성에는 다루기 어렵습니다.
대화는 자연스러운데, 긴 단계의 실행에서는 무너집니다.
이러한 「능력의 들쭉날쭉함」이 존재합니다.
종합 IQ (Composite IQ)는 편리한 요약이지만, 그 들쭉날쭉함을 숨겨버릴 가능성이 있습니다.
그러므로 AI IQ를 볼 때는,
「이 모델은 종합적으로 몇 점인가」
뿐만 아니라,
「어떤 차원이 강하고, 어떤 차원이 약한가」
까지 보아야 합니다.
제 결론은 심플합니다.
AI IQ는 「채용 판단의 정답」이 아니라, 「후보를 좁히는 입구」로 사용하는 것,
이것이 가장 적절하다고 생각합니다.
구체적으로는 다음과 같은 흐름입니다.
먼저 Composite IQ와 유효 비용 (Effective Cost)을 보고, 후보를 몇 개의 모델로 압축합니다.
이 단계에서는 대략적이어도 괜찮다고 생각합니다.
- 명백히 성능이 부족해 보이는 모델을 제외
- 명백히 너무 비싼 모델을 제외
- 가성비가 좋아 보이는 모델을 남김
이 입구로서 AI IQ는 상당히 편리합니다.
다음으로, 용도별로 차원별 스코어를 확인합니다.
예를 들어, 코딩 용도라면 프로그래밍적 추론 (Programmatic Reasoning)을 중시합니다.
조사·분석 용도라면 비판적 추론 (Critical Reasoning)이나 에이전트적 추론 (Agentic Reasoning)을 봅니다.
AI 에이전트 용도라면, Agentic Reasoning은 상당히 중요합니다.
여기서 Composite IQ만 보고 있으면, 용도에 맞지 않는 모델을 선택할 가능성이 있습니다.
다음으로 순위 상태 (Rank Status)를 확인합니다.
같은 스코어라도 Full과 Partial은 의미가 다릅니다.
Partial의 경우, 결측치가 보완되었을 가능성이 있습니다.
보완이 보수적으로 이루어졌다고는 해도, 실측치는 아닙니다.
따라서 중요한 용도로 사용한다면,
- 그 스코어는 어느 정도 실측에 기반하고 있는가
- 어떤 벤치마크가 누락되었는가
- 그 누락이 우리들의 용도와 관계가 있는가
까지 확인하는 것이 안전합니다.
최종 판단은 반드시 자사 태스크에서 수행해야 합니다.
특히 일본어 환경에서는 공개 벤치마크만으로는 알 수 없는 것이 많습니다.
예를 들어, 다음과 같은 관점입니다.
- 일본어의 자연스러움
- 경어·평어의 안정성
- 사내 문서 문체에 부합하는가
- RAG에서 올바르게 근거를 찾아내는가
- 사내 용어에 강한가
- 긴 지시를 준수할 수 있는가
- 금지 사항을 준수할 수 있는가
- 툴 연동 시 오류가 발생하지 않는가
- 출력 포맷 (Output Format)이 안정적인가
- 비용이 운용을 견딜 수 있는가
AI IQ는 이러한 사내 고유의 사정까지는 봐주지 않습니다.
그렇기에 AI IQ로 후보를 좁히고, 마지막은 자신들만의 평가 세트로 확인하는 것이 좋습니다.
AI IQ에는 공개 API도 있습니다.
Qiita 기사로서는 이 점이 조금 반가운 포인트입니다.
화면으로 보는 것뿐만 아니라, 데이터로서 취득할 여지가 있습니다.
예를 들어, 공식 사이트에서는 다음과 같은 API가 안내되어 있습니다.
# 모델 목록
curl https://www.aiiq.org/api/models
# 벤치마크 정의
...
실무에서 사용한다면, 정기적으로 API를 확인하며,
- 랭킹이 어떻게 변했는가
- 어떤 모델이 추가되었는가
- 방법론 (Methodology)이 바뀌지 않았는가
- 가성비가 어떻게 변했는가
를 추적하는 방식으로도 사용할 수 있을 것입니다.
다만, 방법론 (Methodology) 자체가 업데이트될 가능성이 있으므로, 기사나 사내 자료로 사용할 경우에는 "언제 시점의 정보인지"를 기재해 두는 것이 안전합니다.
AI IQ를 조사하며 가장 중요하다고 생각한 점은,
랭킹을 보는 것보다, 랭킹이 만들어지는 방식을 보는 것
이었습니다.
"GPT-5.5가 1위", "Claude가 몇 위", "Gemini가 몇 위"라는 이야기는 이해하기 쉽습니다.
하지만 그것만으로는 금방 정보가 낡아집니다.
모델은 업데이트됩니다.
벤치마크 (Benchmark)도 업데이트됩니다.
방법론 (Methodology)도 변합니다.
따라서 특정 날짜의 순위보다는,
- 어떤 벤치마크를 사용하고 있는가
- 어떻게 IQ로 변환하고 있는가
- 어떤 벤치마크를 압축하고 있는가
- 결측치를 어떻게 보완하고 있는가
- 랭크 상태 (Rank Status)는 어떠한가
를 보는 것이 장기적으로는 더 도움이 될 것이라고 생각했습니다.
AI IQ는 AI 모델 비교를 상당히 이해하기 쉽게 만들어 주는 프로젝트입니다.
여러 벤치마크를 통합하여 IQ라는 직관적인 척도로 보여줍니다.
나아가 차원별 스코어와 비용도 확인할 수 있습니다.
모델 선정의 입구로서는 상당히 편리합니다.
한편, AI IQ의 수치를 그대로 믿는 것은 위험합니다.
이유는,
- IQ는 인간의 심리 측정과 동일한 것이 아니라 메타포 (Metaphor)이다
- 스코어 변환에는 수동 교정 (Manual calibration)이 들어간다
- 일부 벤치마크에는 압축 처리가 들어간다
- 결측치는 보완된다
- 원래 벤치마크 자체에도 변동성이 있다
- 단일 스코어는 AI 능력의 불규칙함 (Jaggedness)을 숨긴다
때문입니다.
그래서 저는 다음과 같이 사용하는 것이 좋을 것이라고 생각했습니다.
AI IQ는 랭킹의 정답을 보는 곳이 아니라, 어디를 파고들어야 할지 찾아내는 입구로 사용한다.
모델 선정 시에는 먼저 AI IQ로 후보를 좁힌다.
다음으로 용도에 맞는 차원별 스코어와 랭크 상태 (Rank Status)를 확인한다.
마지막으로 자사 태스크 (Task)에서 평가한다.
이러한 거리감이 현재로서는 가장 현실적이라고 생각합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기