10개의 AI 코딩 모델을 테스트해 보았고, 우승자를 보고 충격을 받았습니다

이것 좀 보세요: 10개의 AI 코딩 모델을 테스트해 보았고, 우승자를 보고 충격을 받았습니다

자, 제가 AI와 코딩에 대해 생각하는 방식을 완전히 바꿔놓은 것에 대해 이야기해야겠습니다. 저는 몇 달 전 코딩 부트캠프 (coding bootcamp)를 졸업했고, 다른 모든 신입 개발자들과 마찬가지로 노트북을 창밖으로 던져버리고 싶지 않으면서도 실제로 코드를 더 빠르게 배포할 수 있도록 도와주는 도구를 찾는 끝없는 여정을 이어오고 있습니다.

제가 AI 코딩 모델을 본격적으로 테스트하기 전까지는 이 토끼굴이 얼마나 깊은지 전혀 알지 못했습니다. 한동안은 ChatGPT가 유일한 실제 선택지라고 생각했습니다. 스포일러를 하자면, 그렇지 않습니다. 근처에도 못 미칩니다.

모델 비교를 시작한 이유

문제는 이렇습니다. 부트캠프를 막 졸업했을 때는 모든 돈이 소중합니다. 새벽 2시쯤에 API 가격 페이지를 뚫어지게 쳐다보며, 바로 옆에 0.25달러짜리 옵션이 있는데도 '프리미엄' AI를 위해 100만 토큰당 3달러를 지불해야 하는지 고민하던 기억이 납니다. 비싼 것이 정말 12배 더 나은 걸까요? 저는 전혀 알 수 없었습니다.

그래서 저는 집착적인 부트캠프 졸업생이라면 누구나 할 법한 일을 했습니다. 10개의 서로 다른 AI 모델을 가져와서, 모두에게 동일한 코딩 문제를 던져주고, 미친 듯이 모든 것을 점수 매기기 시작했습니다. 제가 발견한 결과는 정말 놀라웠습니다.

테스트한 모델들

라인업을 살펴보겠습니다. 이것들은 모두 API를 통해 호출할 수 있는 실제 모델들입니다:

모델	제조사	출력 토큰 100만 개당 비용	용도
DeepSeek V4 Flash	DeepSeek	$0.25	범용, 하지만 코딩에 매우 뛰어남
...

Ga-Standard가 100만 토큰당 단 0.20달러라는 것을 처음 보았을 때, 저는 충격을 받았습니다. 그러니까, 20센트라고요? Kimi K2.5의 3.00달러와 비교하면 기본적으로 공짜나 다름없습니다. 하지만 저렴하다는 것이 쓰레기라는 뜻인지는 알 수 없었습니다.

실제로 테스트한 방법

어설픈 테스트를 하고 싶지는 않았습니다. 저는 어떤 부트캠프 졸업생이라도 알아볼 만한 5가지 코딩 작업을 선정했습니다:

Python에서 중첩된 리스트 평탄화 (Flatten a nested list in Python) — 쉬워 보이지만, 전형적인 재귀 (recursive) 연습 문제입니다.
JavaScript 레이스 컨디션 (race condition) 수정 — 부트캠프 시절 꿈에까지 나올 법한 async/await 버그입니다.
TypeScript로 다익스트라 알고리즘 (Dijkstra's algorithm) 구현 — 그래프 이론 (graph theory)의 최종 보스전입니다.
보안 이슈를 위한 Go 코드 리뷰 — 하루 동안 시니어 엔지니어인 척해 보는 작업입니다.
Express.js로 페이지네이션이 적용된 REST API 엔드포인트 구축 — 풀스택 개발의 기본 중의 기본입니다.

각 모델은 1점에서 10점 사이로 점수가 매겨졌습니다. 저는 코드가 실제로 작동하는지, 얼마나 깔끔한지, 문서화가 되어 있는지, 그리고 이상한 엣지 케이스 (edge cases)를 처리하는지를 살펴보았습니다. 실제 상황과 유사한 것들이죠.

커피를 뿜게 만든 결과

자, 이제 진짜 흥미진진한 부분입니다. 10개의 모델 모두를 시련의 과정에 통과시킨 후, 전체적인 순위는 다음과 같습니다:

순위	모델	점수	가격	가성비 (달러당 점수)
🥇	Qwen3-Coder-30B	8.8	$0.35	25.1
...

이제 이 내용을 자세히 설명해 보겠습니다. 저도 이해하는 데 시간이 좀 걸렸거든요. "가성비 (Value)" 열은 기본적으로 1달러당 얼마나 높은 품질을 얻을 수 있는지를 나타냅니다. 그리고 맨 아래에 있는 Ga-Standard 수치는요? 별표(*)는 그것이 스마트 라우터 (smart router)임을 의미합니다. 즉, 당신이 던져주는 어떤 작업에 대해서든 실제로 최적의 모델을 선택한다는 뜻입니다. 그래서 점수가 변동되긴 하지만, 42.5라는 가성비 점수는 정말이지 제 정신을 쏙 빼놓았습니다.

저렴한 것이 좋을 수도 있다는 사실을 전혀 몰랐습니다.

저렴한 모델들이 체급을 뛰어넘는 성능을 보여줍니다

DeepSeek V4 Flash에 대해 말씀드리겠습니다. 제가 모든 부트캠프 친구들에게 계속 말하고 있는 모델입니다. 이 모델은 10점 만점에 8.7점을 받았습니다. 이는 비용이 3배에서 12배 더 비싼 모델들과 비교해도 아주 근소한 차이입니다. 34.8이라는 가성비 점수는 돈을 들인 것 이상의 엄청난 이득을 얻고 있음을 의미합니다.

그리고 Qwen3-Coder-30B는요? 이 모델은 전용 코드 모델(dedicated code model)의 승자입니다. 8.8점을 기록했는데, 이는 1달러 미만의 모델 중 가장 높은 점수입니다. 백만 토큰당 0.35달러라는 가격은 정말 거저나 다름없습니다. 어려운 문제에 이 모델을 돌렸을 때, 마치 시니어 개발자가 작성한 것 같은 코드가 돌아온 것을 기억합니다. 솔직히 정말 충격적이었습니다.

프리미엄 모델들은 훌륭하지만, 그만한 가치가 있을까요?

여기서 저는 여러분께 솔직해져야겠습니다. DeepSeek-R1은 9.4점을 기록했습니다. 이는 전체 테스트에서 가장 높은 원시 점수(raw score)입니다. 그리고 Kimi K2.5도 9.0점으로 그 뒤를 바짝 쫓았습니다. 이들은 진정으로 코딩을 위한 최고의 모델들입니다.

하지만 가치 점수(value score)를 확인했을 때 — DeepSeek-R1은 3.8점, Kimi K2.5는 3.0점 — 저는 거의 숨이 막힐 뻔했습니다. 품질을 겨우 0.7점 더 얻기 위해 100만 토큰당 2.50달러에서 3.00달러를 지불하고 있는 셈이니까요.

그럴 가치가 있을까요? 아마도요. 만약 당신이 정말 어려운 알고리즘 문제(algorithmic problem)를 다루고 있고, 다른 모델들이 10번의 시도가 필요한 상황에서 추론 모델(reasoning model)이 단 한 번에 해결할 수 있다면, 그렇습니다, 2.50달러의 가치는 충분합니다. DeepSeek-R1은 마치 사람이 화이트보드 앞에서 문제를 풀어가는 것처럼, 기본적으로 문제를 단계별로 생각하며 풀어냅니다. 특정 작업들에 있어서 그것은 타의 추종을 불허합니다.

하지만 일상적인 부트캠프 수준의 코딩이라면요? 저는 이렇게 많은 돈을 아낄 수 있다는 사실을 전혀 몰랐습니다.

가장 많은 것을 배운 작업들

Python 재귀 워밍업

"중첩된 리스트 펼치기(flatten a nested list)" 작업에서 DeepSeek V4 Flash와 Qwen3-Coder-30B는 모두 9.0점을 기록했습니다. Kimi K2.5 또한 9.0점을 받았으며, 제가 실제로 배울 수 있었던 매우 깔끔한 독스트링(docstring)을 추가해 주었습니다. 하지만 단연 돋보인 것은 9.5점을 받은 DeepSeek-R1이었습니다. 이 모델은 Big-O 복잡도 분석(complexity analysis)과 여러 가지 해결 접근 방식(solution approaches)을 포함했습니다. 코드와 함께 무료 알고리즘 수업을 들을 수 있을 줄은 꿈에도 몰랐습니다.

JavaScript 레이스 컨디션(Race Condition) 수정

이 작업은 제가 개인적으로 부트캠프 시절에 고생했던 작업이었습니다. 버그가 있는 코드는 다음과 같았습니다:

let data = null;
fetch('/api/data').then(r => r.json()).then(d => data = d);
console.log(data); // 항상 null을 출력함 — 레이스 컨디션(race condition)!

제가 테스트한 모든 모델이 이 문제를 정확히 찾아냈습니다. 즉, 100%의 모델이 이를 포착했습니다. 그 점은 안심이 되었습니다. DeepSeek V4 Flash는 명확한 설명과 함께 세 가지 다른 수정 옵션을 제공했습니다. Qwen3-Coder-30B는 수정 사항에 에러 핸들링(error handling)을 추가했습니다. 두 모델 모두 9.0점으로 공동 우승을 차지했습니다. 솔직히 각각 0.25달러와 0.35달러라는 가격에 이 정도 수준의 디버깅(debugging) 도움을 받는 것은 믿기지 않는 수준입니다.

다익스트라(Dijkstra) 보스전

TypeScript로 다익스트라(Dijkstra) 알고리즘을 요청했을 때, 상황은 매우 흥미로워졌습니다. DeepSeek-R1은 9.5점이라는 점수로 압도적인 성능을 보여주었습니다. 완벽한 타입 안정성(type safety), 우선순위 큐(priority queue)의 적절한 사용 등 모든 면에서 완벽했습니다. 프리미엄 모델들이 이 문제에서 실력을 제대로 발휘한 것입니다. 하지만 꼭 기억해야 할 점이 있습니다. 그 9.5점의 대가로 저는 100만 토큰당 2.50달러를 지불했습니다.

실제로 내 삶을 편하게 만들어준 도구

자, 이제 솔직하게 이야기해 보겠습니다. 이 모든 테스트를 마친 후, 저는 10개의 서로 다른 계정과 API 키를 설정하지 않고도 이 모델들을 실제로 호출할 수 있는 방법이 필요했습니다. 그때 Global API를 발견했습니다. 이는 기본적으로 하나의 엔드포인트(endpoint)를 통해 이 모든 모델에 접근할 수 있는 통합 게이트웨이(unified gateway)입니다.

기본적인 Python 호출 방식은 다음과 같습니다:

import requests

response = requests.post(
...

그리고 필요할 때 프리미엄 추론(reasoning) 모델로 전환하는 방법은 다음과 같습니다:

import requests

# 정말 어려운 알고리즘 문제를 위해 DeepSeek-R1 사용
...

정확히 동일한 URL 패턴을 사용하여 0.25달러짜리 모델과 2.50달러짜리 모델 사이를 자유롭게 전환할 수 있다는 사실은 여전히 저에게 마법처럼 느껴집니다. 이런 것이 가능하다는 것조차 전혀 몰랐습니다.

내가 현재 실제로 일상에서 사용하는 방식

이 모든 테스트를 거친 후, 부트캠프 졸업생으로서의 저의 솔직한 워크플로우(workflow)는 다음과 같습니다:

보일러플레이트(boilerplate), 단순 함수, 빠른 스크립트 작성 시: 0.25달러의 DeepSeek V4 Flash. 거의 매번 완벽하게 해냅니다.
견고함이 필요한 프로덕션 코드(production code)를 작성할 때: 0.35달러의 Qwen3-Coder-30B. 코드 전문 모델다운 면모가 확실히 드러납니다.
머리를 써야 하는 복잡한 알고리즘 퍼즐을 풀 때: 2.50달러의 DeepSeek-R1. 제가 3시간 동안 매달려야 할 문제를 단 한 번에 해결해 줄 때라면 그 비용은 충분히 가치가 있습니다.
정말로 무엇이 필요한지 모를 때: 0.20달러의 Ga-Standard. 스마트 라우터(smart router)가 적절한 모델을 선택해 주며, 가격이 믿기지 않을 정도로 저렴합니다.

예전에는 그저 Twitter에서 가장 화제가 되는 비싼 모델을 기본값으로 사용하곤 했습니다. 하지만 이제는 API 비용을 80% 정도 적게 쓰면서도 비슷하거나 더 나은 결과를 얻고 있습니다. 전환 후 첫 달 청구서를 확인했을 때 정말 깜짝 놀랐습니다.

나를 가장 놀라게 했던 것

이 모든 과정에서 얻은 가장 큰 교훈은 무엇일까요? 바로 원시 점수 (Raw score)가 전부가 아니라는 점입니다.

Insights