AI IQ로 '용도별 모델 선택하기': 결론과 그 근거를 읽는 법

안녕하세요, 엔지니어 5년 차 시마다입니다.

이 기사를 열어주셔서 감사합니다!

지난번, AI 모델을 「IQ」라는 스케일로 비교하는 AI IQ라는 프로젝트에 대해 썼습니다.

그때 제가 전달하고 싶었던 것은,

AI IQ는 「채용 판단의 정답」이 아니라, 「후보를 좁히는 입구」로 사용한다

라는 것이었습니다.

이번에는 그 후속으로, 용도별로 어떤 모델을 선택하면 좋을지를 정리해 보려고 합니다.

이 기사는,

우선
**결론 (용도별 요약표)**을 제시합니다 - 다음으로
**왜 그렇게 선택할 수 있는지 (지표 읽는 법)**를 정리합니다 - 마지막으로
스스로 다시 선택하기 위한 절차를 정리합니다

라는 순서로 진행됩니다.

결론만 알고 싶은 분은 첫 번째 표만, 근거까지 알고 싶은 분은 끝까지 읽으시면 됩니다.

※ 이 기사의 스코어는, AI IQ Rankings API (https://www.aiiq.org/api/rankings ) 가 반환하는 methodologyVersion: 2026-06-14-abstract-reorder-software-split (updatedAt: 2026-06-23) 시점의 것입니다. Web 페이지가 아니라, API 응답 내의 메타데이터에 기반합니다.

용도별 추천 모델 요약표 … 결론만 보려면 여기
용도별 근거
전제: 차원(Dimension)이 7개로 재편됨
스스로 다시 선택하기 위한 4단계
요약

세부 항목 열기

먼저 결론입니다.

AI IQ의 데이터 (methodologyVersion 2026-06-14)
)를 바탕으로, 용도별로 선택하면 다음과 같습니다.

용도	제1후보	가성비 후보	확인해야 할 차원
본딩 코딩 (Production Coding)	opus-4.8	glm-5.1	Production Engineering
...
※ 최상위인

fable-5

(Composite IQ 130)는 수출 규제에 따라 액세스가 일시 중지된 상태이므로, 실무 후보에서는 제외했습니다. 상용 가능한 모델 중에서 선택했습니다.

여기까지가 결론입니다.

이후에는 「왜 이렇게 선택할 수 있는지」와 「스스로 다시 선택하는 방법」을 설명합니다.

서두의 요약표가 어떤 데이터에서 나왔는지 용도별로 보여드립니다.

모두 AI IQ Rankings API (methodologyVersion 2026-06-14)
)의 실제 데이터입니다.

확인해야 할 차원: Production Engineering (리포지토리 수정·디버깅·장기 구현)

순위	모델	Production Eng IQ
1위	opus-4.8	138
...

SWE-Bench Verified/Pro, SWE Marathon 등 「리포지토리를 고치는」 과제로 구성된 차원입니다.

제1후보는 opus-4.8. 비용을 중시한다면 glm-5.1 (실효 비용 $3.56)이 후보가 됩니다.

확인해야 할 차원: App Building (UI·시작·프로토타입 생성)

순위	모델	App Building IQ
1위	opus-4.7	142
...

DesignArena, Arena.ai WebDev, Vibe Code Bench 등 「만들어서 움직이는」 과제로 구성됩니다.

Anthropic 계열 (Opus / Sonnet)이 이 차원에서 명확하게 강합니다.

비용과 성능의 밸런스를 고려하면 sonnet-4.6 (IQ 131·비용 $29.3)이 실무에 적합합니다.

확인해야 할 차원: Scientific Reasoning + Abstract Reasoning

용도	중시 차원	상위 모델
기술 판단·트레이드오프 분석	Scientific	gpt-5.5(142), gemini-3.1-pro(141), opus-4.8(140)
미지의 문제 모델링	Abstract	gpt-5.5(108), gemini-3.1-pro(106), opus-4.7(102)

주의할 점이 있습니다. Abstract Reasoning은 모든 모델에서 천장이 낮습니다 (최고 108).

따라서,

설계에 대한 브레인스토밍 (Wall-hitting) 용도로는 사용할 수 있어도, 신규성이 높은 설계 판단을 통째로 맡기는 것은 위험하다

라는 전제하에 사용합니다.

후보는 추상 추론 (Abstract Reasoning)에서 한 발 앞서 있는 gpt-5.5 또는 gemini-3.1-pro입니다.

보는 차원: Reliability + EQ 계열

문장은 종합 IQ보다 「지시 추종 (Reliability)」과 「자연스러움 (EQ 계열)」이 중요합니다.

차원	상위 모델
Reliability IQ	gemini-3.1-pro(117), grok-4.3(113), gpt-5.5(111)
...

포맷 엄수라면 gemini-3.1-pro (Reliability 1위).

자연스러움·톤을 중시한다면 opus-4.8 / sonnet-4.6.

단, 일본어의 자연스러움은 이 벤치마크로 측정할 수 없으므로, 마지막에는 자신의 평가 세트로 확인할 필요가 있습니다.

보는 차원: Scientific Reasoning + Computer Use

모델	Scientific	Computer Use	실효 비용
gpt-5.5	142	135	$35.6
...

두 차원 모두 성능은 거의 비슷합니다.

그런데도 비용은 3~4배 차이가 나기 때문에, 비용 효율 측면에서 gemini-3.1-pro가 독보적입니다.

보는 차원: Computer Use (터미널·브라우저 조작)

순위	모델	Computer Use IQ
1위	gpt-5.5	135
...

Terminal-Bench, OSWorld, BrowseComp로 구성됩니다.

제1후보는 gpt-5.5 / opus-4.8. 사내 도구에서 대량으로 돌린다면 kimi-k2.6도 후보입니다.

지금까지 「차원 (Dimension)」이라는 말을 사용해 왔습니다.

그 전제를 보충하겠습니다.

지난 기사 시점에서는 AI IQ의 차원이 5개였습니다.

지금 보면 7개로 재편되어 있습니다.

특히 SE(Software Engineer)에게 큰 변화는, 코딩 (Coding)이 두 개의 차원으로 분할된 것입니다.

지난번 (5차원)	현재 (7차원)
Fluid Abstraction	Abstract Reasoning
...	App Building / Production Engineering로 분할
Critical Reasoning	Scientific Reasoning
Agentic Reasoning	Computer Use
(없음)	Reliability

현재의 7차원은 다음과 같습니다.

차원	측정하는 능력	대표적인 벤치마크
Mathematical Reasoning	수학적 추론	FrontierMath, AIME, ProofBench
...

「코딩 능력」을 하나의 스코어로만 보고 있으면,

UI 프로토타입은 강하지만, 실제 서비스 코드의 디버깅은 약하다

와 같은 차이가 숨겨지게 됩니다.

지난 기사에서 쓴 「단일 스코어는 AI의 거친 면(Jaggedness)을 숨긴다」는 말이 바로 코딩 차원 안에서 일어나고 있었던 것입니다.

서두의 요약표는 「정답」이 아니라 「일례」입니다.

데이터가 바뀌면 결론도 바뀝니다.

그래서, 스스로 다시 선택하기 위한 절차를 남겨둡니다.

이 4단계만 알고 있다면, 데이터가 업데이트되어도 같은 방식으로 선택할 수 있습니다.

가장 먼저 할 일은, 「하고 싶은 일」이 7차원 중 어디에 해당하는지 번역하는 것입니다.

이 부분이 가장 중요하며, 동시에 가장 실수하기 쉬운 부분입니다.

하고 싶은 일	대응하는 차원
기존 코드의 버그 수정·기능 추가	Production Engineering
...

여기서 가장 전달하고 싶은 것은,

「코딩」을 한 단어로 생각하지 말 것

입니다.

버그 수정이라면 Production Engineering, UI 시제품 제작이라면 App Building과 같이, 보아야 할 차원이 다릅니다.

차원이 결정되었다면, 스코어를 **절대값이 아니라 「분포 속의 위치」**로 읽습니다.

AI IQ 스코어는 인간의 IQ와 마찬가지로, 평균 100·표준편차 15의 정규 분포로 가정하여 설계되어 있습니다.

스코어 대역	분포상의 위치	실무에서의 해석
130 이상	상위 약 2%	해당 차원에서 독보적으로 앞서 있음
...

나아가, 해당 차원의 「천장(Ceiling)」이 어디에 있는지도 함께 살펴봅니다.

예를 들어 Abstract Reasoning은 모든 모델이 115 미만(최고 108)입니다.

반면 Production Engineering은 138까지 뻗어 있습니다.

같은 「IQ 120」이라도, Abstract Reasoning의 120과 Production Engineering의 120은 의미가 다릅니다.

천장이 낮은 차원에서의 120은 「거의 최상위」가 되며, 천장이 높은 차원에서의 120은 「상위권이지만 최고는 아님」이 됩니다.

후보가 좁혀지면, Effective Cost (실효 비용)를 확인합니다.

방법은 간단합니다.

용도에 필요한 IQ의 최저 기준선을 충족하는 범위 내에서, 가장 저렴한 것을 선택한다

입니다.

자료 작성의 예(앞서 언급한 내용)에서는 3개 모델의 성능이 거의 비슷함에도 비용은 3~4배 차이가 났습니다.

이 경우,

성능 차이는 거의 오차 범위. 따라서 비용이 1/4인 gemini-3.1-pro를 선택한다.

라는 판단을 내리게 됩니다.

성능이 팽팽할 때는 비용이 결정타가 됩니다.

마지막으로, 숫자의 **신뢰도와 사정거리(Range)**를 확인합니다.

확인 1은 imputed (보완) 플래그입니다.

API의 각 스코어에는 imputed: true / false가 붙어 있으며, true는 실측값이 아닌 추정치입니다. 중요한 용도에서는 보완값에 의존하지 않는 것이 안전합니다.

확인 2는 애초에 AI IQ로는 측정할 수 없는 것들입니다.

일본어(해당 언어)의 자연스러움
경어·평어 사용의 안정성
사내 용어에 대한 대응력
RAG에서 근거를 올바르게 찾아내는지 여부
긴 지시사항을 준수할 수 있는지 여부
출력 포맷이 안정적인지 여부

이것들은 공개 벤치마크로는 알 수 없습니다.

따라서 지난 기사와 동일한 결론에 도달합니다.

AI IQ로 후보를 좁히고, 마지막에는 반드시 자사 태스크로 실측한다.

지난번에도 썼지만, 이번에 더욱 강하게 느꼈습니다.

랭킹을 외우는 것보다, 랭킹을 읽는 법을 갖는 것이 중요합니다.

실제로 지난번과 이번 사이에 코딩 차원이 두 개로 분리되었습니다.

만약 「종합 1위는 이것」이라는 결론만 외우고 있었다면, 이러한 변경 사항에 대응할 수 없습니다.

하지만,

용도를 차원으로 번역하고, 분포상의 위치로 읽고, 비용과 저울질하며, 마지막에는 자사에서 실측한다

라는 **절차 (Procedure)**를 가지고 있다면, 무엇이 업데이트되더라도 동일한 방식으로 선택할 수 있습니다.

결론은 낡아집니다.

하지만 판단 프로세스는 낡지 않습니다.

그래서 이 기사는 결론을 먼저 제시하되, 그 뒤에 「왜 그렇게 선택할 수 있는지」와 「스스로 다시 선택하는 절차」를 배치했습니다.

용도별 모델 선정은 우선 결론부터 확인하십시오.

용도	제1후보	가성비 후보
프로덕션 코딩	opus-4.8	glm-5.1
...

단, 이 표는 「정답」이 아니라 「한 예시」입니다.

스스로 다시 선택하기 위한 절차는 다음 4단계입니다.

용도를 「차원」으로 번역하기 (코딩을 단 한 단어로 생각하지 말 것)
스코어를 「분포상의 위치」와 「천장」으로 읽기 (같은 120이라도 의미가 다름)
IQ와 비용을 동시에 보기 (성능이 팽팽할 때는 비용이 결정타)
imputed와 「측정할 수 없는 것」을 확인하기 (마지막은 자사 태스크로 실측)

AI IQ는 랭킹의 정답을 보는 곳이 아니라, 어디를 파헤쳐야 할지 찾아내는 입구로 사용하십시오.

이 정도의 거리감이 현재로서는 가장 현실적이라고 생각합니다.

AI IQ로 '용도별 모델 선택하기': 결론과 그 근거를 읽는 법

요약

핵심 포인트

세부 항목 열기

댓글