부트캠프 졸업생으로서 10가지 AI 코딩 모델을 테스트한 방법

솔직히 말씀드리면 — 3개월 전만 해도 저는 모든 AI 코드 도구들이 기본적으로 다 똑같다고 생각했습니다. 그러다 부트캠프를 졸업하고 실제 프로젝트를 만들기 시작하면서, 결과는 제각각인데 AI 토큰 비용으로 거금을 쓰고 있다는 사실을 깨달았습니다. 그래서 호기심 많은 개발자라면 누구나 할 법한 일을 했습니다. 저만의 실험을 시작한 것이죠.

그다음에 일어난 일은 진심으로 저를 놀라게 했습니다. 저는 비싼 모델들이 저렴한 모델들을 압도할 것이라고 생각하며 시작했습니다. 스포일러를 하자면: 제가 발견한 결과는 전혀 그렇지 않았습니다.

기이한 놀라움, 기대 이하의 성능을 보인 모델들, 그리고 가격표를 보고 다시 한번 확인하게 만든 모델까지 포함된 전체 이야기를 들려드리겠습니다.

왜 굳이 이 모델들을 테스트했는가

잠시 되돌아가 보겠습니다. 부트캠프에 있을 때, 강사님은 계속해서 "AI를 의지하는 도구가 아닌, 도구로서 사용하라"고 말씀하셨습니다. 멋진 말이지만, 어떤 도구를 써야 할까요? 모든 YouTube 광고는 새로운 모델을 밀어붙이고 있었습니다. 제 동기들은 마치 정치 문제라도 되는 양 GPT vs Claude vs Gemini에 대해 토론하곤 했습니다. 그리고 가격 페이지는 마치 비행기 티켓처럼 — 의도적으로 혼란스럽게 만들어져 있었습니다.

저는 한 모델에는 출력 토큰(output tokens) 100만 개당 3.00달러를 지불하고 있었고, 다른 모델에는 0.25달러를 지불하고 있었는데, 솔직히 어떤 것이 더 나은 코드를 제공하는지 알 수 없었습니다. 그래서 저는 10개의 인기 있는 모델을 가져와서, 각각에게 동일한 5가지 코딩 작업을 던져주고 미친 듯이 점수를 매기기 시작했습니다.

무엇을 발견하게 될지 전혀 몰랐습니다. 하지만 제가 혼란스럽다면, 다른 부트캠프 졸업생들도 아마 마찬가지일 것이라고 생각했습니다.

라인업

제가 테스트한 팀 구성입니다. 저렴한 옵션, 중간 가격대, 그리고 비싼 옵션을 섞어서 선정했습니다. 아래 가격은 모두 모델이 실제로 내뱉는 코드에 대해 지불하는 출력 토큰 100만 개당 가격입니다.

모델	개발사	출력 토큰 100만 개당 비용
DeepSeek V4 Flash	DeepSeek	$0.25
...

목록에서 가장 저렴한 모델은 Ga-Standard로 0.20달러입니다. 가장 비싼 모델은 Kimi K2.5로 3.00달러입니다. 코드 품질이 비슷할 수도, 혹은 엄청나게 다를 수도 있는 상황에서 15배의 가격 차이가 나는 것입니다. 아직은 알 수 없었습니다.

모든 것을 점수 매긴 방법

저는 이 리뷰가 단순히 느낌(vibes)에 기반한 것이 되지 않기를 원했습니다. 그래서 간단한 루브릭(rubric, 평가 기준)을 만들었습니다. 각 모델은 동일한 다섯 가지 작업에 대해, 동일한 순서로, 동일한 프롬프트(prompt)를 사용하여 테스트되었습니다.

중첩된 Python 리스트 평탄화 (재귀 (recursion))
JavaScript의 async/await 버그 수정
TypeScript로 다익스트라 (Dijkstra) 알고리즘 구현
Go 코드의 보안 문제 리뷰
완전한 Express.js REST 엔드포인트 구축

각 작업에 대해 출력 결과에 1점에서 10점까지 점수를 매겼습니다. 코드가 실제로 작동하는지(오류 없이 실행되는지), 가독성이 얼마나 깔끔한지, 주석이 포함되어 있는지, 그리고 특이한 엣지 케이스 (edge case)를 처리하는지를 확인했습니다. 그런 다음 점수의 평균을 내고 가격으로 나누어 "가치 (value)" 수치를 구했습니다. 이 수치는 높을수록 좋습니다.

이것이 과학적이었냐고요? 꼭 그렇지는 않았습니다. 일관성이 있었냐고요? 대체로 그랬습니다. 제가 엄청난 것을 배웠냐고요? 당연합니다.

거대한 반전

자, 여기서부터 상황이 이상해졌습니다. 저는 저렴한 모델들이... 저렴할 것이라고 예상했습니다. 아시다시피, 기능은 하지만 약간 불안정한(janky) 정도일 것이라고 말이죠. 비싼 모델들은 우아하고 결함이 없어야(bulletproof) 합니다. 더 많은 비용을 지불하는 이유가 바로 그것이니까요, 그렇지 않나요?

틀렸습니다. 적어도 코딩에 있어서는 말이죠.

이 표를 보세요. 제가 매긴 "가치 (value)" 점수(달러당 품질)를 기준으로 정렬되어 있습니다.

모델	품질 점수	가격	가성비 (Bang for Buck)
DeepSeek V4 Flash	8.7	$0.25	34.8 🏆
...

저는 충격을 받았습니다. 최고 품질의 모델(9.4점을 기록한 DeepSeek-R1)은 $2.50/M의 비용 때문에 가성비가 가장 낮은 모델 중 하나였습니다. 반면, DeepSeek V4 Flash는 $0.25/M의 가격으로 8.7점을 기록했습니다. 기본적으로 품질은 거의 동일합니다. 품질 점수 0.7점을 올리기 위해 10배나 더 많은 비용을 지불하는 셈입니다.

이것은 마치 1.50달러짜리 주유소 커피보다 아주 약간 더 나은 커피를 위해 15달러를 지불하는 것과 같습니다.

또 다른 놀라운 점은 무엇이었을까요? 가장 저렴한 $0.20의 Ga-Standard는 실제로 약 8.5점을 기록했습니다. 왜냐하면 이것은 스마트 라우터 (smart router)이기 때문입니다. 특정 작업에 가장 적합한 백엔드 모델로 프롬프트를 보내줍니다. 질문 내용에 따라 점수가 다소 요동치기는 하지만, 가성비 면에서는 타의 추종을 불허합니다.

작업별 학습 내용

작업 1: 재귀 Python 문제

프롬프트는 간단했습니다: "중첩된 리스트를 재귀적으로 평탄화(flatten)하는 Python 함수를 작성하세요."

대부분의 모델이 이 문제를 완벽하게 해결했습니다. 거의 부끄러울 정도로 완벽했죠. DeepSeek V4 Flash는 타입 힌트(type hints)가 포함된 깔끔한 코드를 제공했습니다. Qwen3-Coder-30B는 반복문(iterative)을 사용한 대안을 추가했습니다. Kimi K2.5는 멋진 독스트링(docstring)과 함께 가장 가독성이 좋은 버전을 작성했습니다.

하지만 DeepSeek-R1은 제가 예상하지 못한 것을 보여주었습니다. Big-O 복잡도 분석(complexity analysis)을 포함한 것입니다. 재귀 솔루션은 전체 요소의 수를 n이라고 할 때 O(n)이라고 설명한 뒤, 동일한 복잡도를 가지면서도 재귀 깊이(recursion depth) 위험이 없는 반복 버전(iterative version)을 추가했습니다. 부트캠프 전에는 f-string만 사용하던 제가, 이제 AI로부터 알고리즘의 트레이드오프(trade-offs)에 대해 배우고 있다니 정말 놀랍습니다.

DeepSeek-R1은 여기서 9.5점을 받았습니다. 다른 모델들은 8.5에서 9.0 사이에 모여 있었습니다.

작업 2: JavaScript 경합 조건 (Race Condition)

이 문제는 부트캠프 시절 저를 괴롭혔던 것이라, 모델들이 어떻게 답변할지 궁금했습니다. 버그는 전형적이었습니다:

let data = null;
fetch('/api/data').then(r => r.json()).then(d => data = d);
console.log(data); // 항상 null을 출력함 — 경합 조건 (race condition) 발생!

단 하나의 예외도 없이 모든 모델이 이 버그를 잡아냈습니다. 단 하나도 빠짐없이 말이죠. AI가 JavaScript의 동시성(concurrency) 문제에 대해 이 정도로 신뢰할 수 있을 줄은 몰랐습니다. 해결책은 async/await를 적절히 사용하는 것입니다:

async function fetchData() {
  const response = await fetch('/api/data');
  const data = await response.json();
...

DeepSeek V4 Flash와 Qwen3-Coder-30B가 이 작업에서 공동 1위를 차지했습니다. 두 모델 모두 문제를 명확하게 설명하고 수정할 수 있는 여러 가지 방법을 제시했습니다. DeepSeek Coder는 올바른 수정안을 제시했지만 설명이 최소화되어 있었는데, 저는 무엇이 잘못되었는지 실제로 이해하고 싶었기에 점수가 조금 낮게 책정되었습니다.

작업 3: TypeScript로 구현하는 다익스트라 (Dijkstra's)

이 지점이 바로 추론 모델(reasoning models)들이 실력을 발휘하는 구간입니다. 다익스트라의 최단 경로 알고리즘은 간단하지 않습니다. 우선순위 큐(priority queue), 적절한 TypeScript 타입, 그리고 깔끔한 그래프 표현(graph representation)이 필요하기 때문입니다.

DeepSeek-R1이 압도적인 성과를 거두었습니다. 9.5점을 기록했습니다. 완벽한 타입 안정성 (type safety)을 보여주었고, 우선순위 큐 (priority queue)를 포함했으며, 코드에 주석까지 달아주었습니다. Qwen3-Coder-30B 역시 잘 해냈지만, R1은 그냥... 더 나았습니다. 더 사려 깊었습니다.

어려운 알고리즘 문제를 해결해야 한다면, R1은 100만 토큰당 2.50달러의 가격표를 지불할 가치가 있습니다. 일상적인 CRUD 작업용이라면 아마 아닐 것입니다.

태스크 4: Go 코드 리뷰 (Code Review)

저는 각 모델에게 보안 취약점과 성능 문제가 있는 수상쩍은 Go 코드를 제공했습니다. SQL 인젝션 (SQL injection) 위험, 확인되지 않은 에러 (unchecked errors), 그리고 O(n)으로 개선 가능한 O(n²) 루프 같은 것들 말입니다.

저렴한 모델들은 대부분의 문제를 잡아냈지만 미묘한 문제들은 놓쳤습니다. 비싼 모델들은 더 철저했습니다. Kimi K2.5는 제가 실제로 배울 수 있었던 상세한 리뷰를 제공하며 여기서 눈에 띄었습니다.

하지만 솔직히 말하자면요? 코드 리뷰를 위해서는 '생각하는 모델 (thinking model)'이 필요하다고 생각합니다. "SQL 인젝션이 있습니다"와 "SQL 인젝션이 있습니다. 이유는 이렇고, 매개변수화된 쿼리 (parameterized queries)를 사용하여 이렇게 수정할 수 있으며, 귀하의 특정 코드베이스에서의 예시는 다음과 같습니다" 사이의 차이가 바로 당신이 비용을 지불하는 이유입니다.

태스크 5: 전체 Express 엔드포인트 (Endpoint)

"사용자 페이징 (pagination) 및 필터링 기능이 있는 Express.js 기반의 REST API 엔드포인트를 구축하세요."

이것이 실무 테스트였습니다. 모델이 실제로 제가 배포할 만한 무언가를 구축할 수 있는가 하는 점이죠.

대부분은 괜찮았습니다. 몇몇은 페이징 기본값, 쿼리 매개변수 검증 (query parameter validation), 그리고 에러 핸들링 (error handling)을 완벽하게 해냈습니다. Qwen3-Coder-30B가 독보적이었습니다. 입력값 정화 (input sanitization), 속도 제한 (rate limiting) 제안, 심지어 오프셋 (offset) 기반 페이징과 커서 (cursor) 기반 페이징 사이의 트레이드오프 (trade-offs)에 대한 짧은 설명까지 포함했습니다.

저는 그 출력물의 일부를 실제 사이드 프로젝트에 적용했습니다. 이 점을 인정하는 것이 부끄럽지 않습니다.

저를 실망시킨 모델들

100만 토큰당 0.57달러인 Hunyuan-Turbo는 7.5점을 받았습니다. 목록 중 가장 낮은 점수입니다. 코드는 작동했지만 다른 모델들보다 지저분했고, 엣지 케이스 (edge cases)를 더 자주 놓쳤습니다. 0.57달러라면 더 나은 결과물을 기대했습니다.

100만 토큰당 1.92달러인 GLM-5는 추천하기 어려웠습니다. 8.0점을 받았는데, 이는 준수한 점수지만 100만 토큰당 거의 2달러에 달하는 가격을 고려하면 가성비가 맞지 않습니다. 이를 사용해야 할 매우 특정한 이유가 없다면, 건너뛰겠습니다.

그리고 100만 토큰당 3달러인 Kimi K2.5는 어떨까요? 보시다시피 9.0점을 기록했고 코드도 아주 훌륭했습니다. 하지만 100만 토큰당 3달러는 너무 비쌉니다. 대부분의 프로젝트에서 이는 불필요한 비용을 낭비하는 셈입니다.

현재 제가 실제로 사용하는 코드

이 모든 테스트를 거친 후, 저는 일반적인 코딩 작업에는 DeepSeek V4 Flash로, 전문적인 코드 작업이 필요할 때는 Qwen3-Coder-30B로 워크플로우의 대부분을 전환했습니다. 두 모델 모두 저렴하면서도 성능이 좋습니다.

Global API를 통해 이들을 호출하는 방법은 다음과 같습니다. 믿기지 않을 정도로 간단합니다:

import requests

api_key = "your-api-key-here"
...

어려운 알고리즘 문제 해결을 위해 추론 모델 (Reasoning Model)이 필요할 때는 다음과 같이 사용합니다:

payload = {
    "model": "deepseek-r1",
    "messages": [
...

저는 이 코드 조각 (Snippet)을 스크래치 파일에 보관해 두고 프롬프트 (Prompt)만 수정해서 사용합니다. 덕분에 시간을 엄청나게 절약하고 있습니다.

부트캠프 시절 누군가 나에게 말해줬으면 좋았을 요약 (TL;DR)

만약 여러분이 저처럼 프로젝트를 만들고, AI 비용을 신경 쓰며, 무엇이 실제로 중요한지 파악하려고 애쓰는 부트캠프 졸업생이라면, 제가 해주고 싶은 말은 다음과 같습니다:

코딩 작업의 90%에는 100만 토큰당 0.25달러인 DeepSeek V4 Flash로도 충분합니다. 품질이 뛰어나며 여러분의 지갑도 고마워할 것입니다.
코드 비중이 높은 것 (라이브러리나 프레임워크 등)을 구축하고 있다면, 100만 토큰당 0.35달러인 Qwen3-Coder-30B가 그 목적에 맞게 설계되었습니다.
진정으로 어려운 알고리즘이나 아키텍처 (Architecture) 관련 질문에는 100만 토큰당 2.50달러인 DeepSeek-R1을 사용할 가치가 있습니다. 다만 아껴서 사용하세요.
일상적인 업무를 위해 100만 토큰당 3달러짜리 모델을 사용하는 것은 건너뛰세요. 품질 차이가 비용을 정당화하지 못합니다.
모델 선택에 대해 고민하고 싶지 않다면, 100만 토큰당 0.20달러인 Ga-Standard를 사용하세요. 프롬프트에 가장 적합한 모델로 알아서 라우팅 (Routing) 해줍니다. 설정해두고 잊어버리면 됩니다.

다음에 다시 한다면 다르게 해볼 점

만약 제가 이 실험을 다시 한다면, 더 많은 언어 (아마도 모두가 배우라고 말하는 Rust)를 추가할 것입니다. 또한 더 큰 프로젝트에서도 테스트해 볼 것입니다. 예를 들어, 각 모델에 기존 코드베이스 (Codebase)를 주고 새로운 기능을 추가해 보라고 시키는 식이죠. 그렇게 한다면 실제 환경에서의 유용성에 대해 훨씬 더 많은 것을 알 수 있을 것입니다.

하지만 지금 당장은 어떨까요? 이 실험을 통해 저는 코드 품질을 동일하게 유지하면서도 AI 비용을 한 달에 아마 200달러 정도 절약할 수 있었습니다. 그 돈은 토큰을 태우는 대신 실제 서버를 구축하는 데 사용할 수 있는 돈입니다.

직접 시도해 보세요

만약 10개의 서로 다른 계정에 가입하지 않고 이 모델들을 마음껏 다뤄보고 싶다면, Global API를 통해 하나의 엔드포인트(endpoint)로 모든 모델에 접속할 수 있습니다. 가격은 위에서 제가 테스트한 것과 동일하며, 설정은 정말로 2분이면 충분합니다. 원하신다면 확인해 보세요. 저는 그저 10개의 API 키를 관리할 필요가 없다는 점이 마음에 들 뿐입니다.

어쨌든, 가격 페이지를 바라보며 어떤 모델을 선택해야 할지 고민하고 있는 누군가에게 이 글이 도움이 되기를 바랍니다. 적어도 지금으로서는 정답은 이렇습니다: 저렴한 모델도 보통은 괜찮습니다.

즐거운 코딩 되세요. 🚀

부트캠프 졸업생으로서 10가지 AI 코딩 모델을 테스트한 방법

요약

핵심 포인트

댓글