DeepSeek V4 Pro, 정밀도에서 GPT-5.5 Pro를 앞서다
요약
DeepSeek V4 Pro와 GPT-5.5 Pro의 성능 비교 실험에 대한 논쟁을 다룹니다. 단순 벤치마크를 넘어 모델의 지능 측정 방식의 한계와 도메인 특화 환경의 중요성을 논의합니다.
핵심 포인트
- DeepSeek V4 Pro가 특정 실험에서 GPT-5.5 Pro를 앞서는 결과가 있음
- 단순 벤치마크보다 도메인 특화 환경과 오케스트레이션이 중요해짐
- 모델의 지능이 일관적이고 구조적으로 나타나도록 정의할 필요가 있음
- 프런티어 모델과 로컬 모델 간의 성능 격차 및 비용 효율성 논의
임의로 짠 실험 4개로는 어느 모델의 역량도 거의 말해주지 못함
글도 모델 홍보나 논쟁 유도를 노린 얄팍한 AI 생성 클릭베이트처럼 읽힘
리드 문단의 “where it matters”, “cleanly”, “is still strong” 같은 표현은 모호하고, 실제로는 4개 중 3개 테스트에서 DeepSeek가 더 간결한 결과를 냈다는 식의 구체적 설명이 부족함. 별 1개짜리임
4개 실험 중 3개라면 확실히 일화적이지만, 결과 자체는 더 정립된 지시 이행 벤치마크와도 어느 정도 맞아떨어짐. 다만 DeepSeek V4 Pro가 그 벤치마크에서 1위는 아님 https://artificialanalysis.ai/evaluations/ifbench
글은 명확하고 꽤 균형 잡혀 보였음. 리드가 약간 영업 문구 같긴 하지만 보통 리드는 그런 편이고, “LLM이 쓴 것 같은 느낌”만으로 즉각 배척하는 건 꽤 성의 없는 반응임
자동차 시장에서도 이상적인 최고 선택지는 한두 모델뿐이지만, 그보다 못한 회사와 모델들도 여러 이유로 계속 팔림
이 글은 DeepSeek가 GPT 5.5와 경쟁 가능하고 때로는 더 나을 수도 있음을 보여줌. 또한 방어 가능한 해자(moat)가 없다는 신호라서 꽤 의미가 큼
“펠리컨이 자전거를 타는” 지표에 대해서는 아무도 이런 식으로 부실한 임의 실험이라고 하지 않음
이런 테스트들은 점점 시간 낭비처럼 보임
이제 지능 자체는 분명히 있음. 그걸 측정하려 드는 게 무의미해 보임. 철물점에서 망치를 살 때 “이 망치로 만들 완제품의 품질” 기준으로 정렬할 수는 없는데, 지금 모델 평가가 대략 그런 요구를 하고 있음
다음 마법은 도메인 특화 하니스와 환경에서 나옴. 일부러 약간 덜 강한 모델을 써서 도메인을 모델에 노출한 방식의 약점을 드러내게 함. 여유 성능이 남아 있으면 프로젝트 신뢰도가 크게 올라감. 고객이 특정 엣지 케이스를 불평하면 그 시나리오만 gpt5.5로 올리면 되지만, 이미 5.5를 쓰고 있다면 더 갈 곳이 없음
“지능이 분명히 있다”는 말이 와닿지 않음
다른 사람들이 쓰는 모델과 같은 걸 쓰는지 의문임. 내 기준으로 LLM은 80%는 좋은 답을 주지만, 20%는 너무 처참하게 실패해서 지능이 없다는 게 명확해짐
동의함. sonnet 4.6이면 거의 모든 일에 충분하다고 느낌. 그 수준을 넘어서면 모델 자체보다 오케스트레이션이 더 중요해 보임
그래도 모델들은 매일 다양한 환각, 인식론 부족, 상식 부족, 지시 불이행으로 놀라게 함
오늘은 opus 4.8에게 Rails 앱 컨트롤러의 단순한 아키텍처 패턴을 따르게 하려 했는데, 상어 이빨을 뽑는 느낌이었음
“분명히 있다”고 해도 이미 “어디에 있느냐”를 물어야 한다는 사실, 그리고 명백히 지능적이지 않은 봇을 봤다는 사실 때문에 지능의 위치와 원인을 정의하고 조사할 필요가 생김
그래야 지능이 우연히, 겉보기로만 나타나는 게 아니라 일관적이고 구조적으로 나타난다는 보증을 얻을 수 있음. 가벼운 용도에는 가벼운 도구, 미션 크리티컬 용도에는 인증된 도구가 필요함
왜 시간 낭비인지 모르겠음
이제 막 LLM 벤치마킹의 세부로 들어가는 중이고, 아직 갈 길은 멀다고 봄. 그래도 로컬 실행 LLM이 최신 최고 수준 모델과 비슷한 결과를 낼 수 있다는 건 굉장히 흥미로움
도메인 특화 하니스와 환경에서 마법이 일어나는 건 아님. 핵심은 학습과 강화학습에서 일어남. 하니스가 모델이 학습받은 행동을 덮어쓰지는 못함
모델이 CRUD 웹사이트를 찍어내도록 학습되어 있고, CRUD 웹사이트를 만들려는 경우라면 하니스가 유용할 수는 있음. 하지만 그건 이미 있는 것을 더 잘 섞는 시간 낭비에 가까움
Claude를 쓰다가 Opencode가 막힌 뒤 직장에서는 GPT를 쓰고 있음. 개인적으로는 Opencode Go에서 월 $10 요금제로 Deepseek를 쓰는데, 솔직히 차이를 별로 못 느끼겠음
비슷하게 유능하고, 3월 이후 다른 둘이 계속 저지르던 멍청한 실수도 같은 종류로 함. 가격을 생각하면 충분히 만족함
95%의 시간에는 프런티어 모델이 10~100배 저렴한 중국 모델보다 제공하는 추가 5%의 엄밀함이 필요 없음
나머지 5%의 시간에는 고난도 추론 문제에서 큰 도움을 받고 많은 고통을 피할 수 있음. 이제 그 추가 5%가 언제 필요한지 정확히 예측할 수만 있으면 좋겠음
두 구독을 모두 쓰고 있는데, gpt가 더 좋고 일관적이라고 확실히 느낌. 다만 한도에 걸리면 크게 그립지는 않음
내가 뭘 잘못하는지 모르겠음. 지난 7개월 동안 Claude를 쓰면서 가끔 deepseek, kimi 같은 모델을 시도했지만, 아무것도 Claude에 근접하지 못했음. Claude는 거의 항상 한 번에 해결함
직접 만든 취약점 스캐닝 벤치마크에 GPT 5.5 Pro를 추가해 봤는데(https://swelljoe.com/post/will-it-mythos/), 중간에 $100 예산 한도를 다 써버림. DeepSeek V4 Pro는 전체 벤치마크에 약 1달러가 들었고, GPT Pro는 케이스당 평균 $22가 들었음
GPT 5.5 Pro는 예산이 바닥나기 전 처리한 4개 중 2개를 찾았음. 무제한 예산이면 최고였을 수도 있지만, Opus 4.8, DeepSeek V4 Pro, MiMo 2.5 Pro는 9개 버그 중 4개를 찾았음. Opus는 GPT 5.5 Pro보다 한 자릿수 규모로 저렴했고 GPT 5.5보다도 약 30% 저렴했으며, DeepSeek와 MiMo는 케이스당 약 10센트로 두 자릿수 규모로 저렴했음
GPT Pro는 상대적으로 오래, 많이 “씹어댐”
Opus 비용의 약 31배를 들여 GPT 5.5 Pro를 쓸 만한 합리적 용례를 떠올릴 수 없고, 더 이상 이걸로 벤치마크하지 않을 예정임
토큰 비용이 점점 중요한 이슈가 되는 상황에서, 미국 대형 제공사보다 극적으로 저렴한 모델들이 있다는 사실은 Anthropic과 OpenAI에 문제가 될 것임. 대화형 코딩에서 최고 모델에 합리적 프리미엄을 내는 건 괜찮지만, API 사용에서는 모델 반복, 모델 간 비교, 모델 심사 등을 사람이 오래 붙잡을 필요 없이 하니스와 정답 검증 프레임워크로 처리할 수 있어서 DeepSeek보다 10배에서 200배를 더 낼 이유를 찾기 어려움
비교에 GPT 5.5 non-pro도 넣어줄 수 있는지 궁금함. GPT Pro는 “가끔 조금 더 나은 결과를 위해 돈을 태워도 됨” 옵션이지, 사람들이 일상적으로 쓰라고 기대되는 옵션은 아님. Codex에 들어가지 않은 이유도 아마 그중 하나일 듯함
좋은 글임. 다만 Sonnet이 Haiku보다 못한 이유가 헷갈림. 찾으려던 버그는 아니지만 다른 버그는 많이 찾았다고 했던 것 같음
9개 버그는 순위를 매기기에는 표본이 조금 적어 보임
그래도 순위는 대체로 예상과 비슷하게 나옴
Deepseek는 Pro 맞는지, Flash는 아닌지 궁금함. Flash를 작은 작업에 많이 쓰고 있는데 꽤 괜찮음. “대화형” 사용에 좋고 매우 빠르며 작은 작업은 거의 즉시 끝냄
큰 코드베이스 조사에도 쓸 만함. 보안 작업도 가능할지 궁금함
좋은 작업임. 직관이 맞는 것 같음. Mythos moment의 상당 부분은 적절한 하니스와, 어리석은 가드레일이 많지 않은 탄탄한 모델로 재현할 수 있을 듯함
저렴한 모델들이 잘하는 것도 보기 좋음
DeepSeek는 어디서 실행함?
Claude Code를 DeepSeek API 가격으로 바꾸면 지금 쓰는 $100 Max 플랜보다 돈값을 더 할지 궁금함
5시간 한도는 며칠에 한 번 정도만 치고, 주간 한도도 가장 공격적으로 써야 리셋 하루이틀 전에 닿는 정도임. 한도에 막히지 않는 것 말고 사용량이 크게 늘 것 같지는 않음
미국에 적대적인 정부 아래 있는 연구소로 내 작업물을 보내는 것도 아직 꺼림칙해서 순수 비용만 보는 건 아니지만, 지금 질문은 비용 관점임
‘돈값’을 무엇으로 보느냐에 따라 다름. 오픈 가중치 모델이 openai/claude보다 낫지는 않음. 하지만 훨씬 싸고 한도도 훨씬 높아서 더 적은 돈으로 더 많은 일을 시킬 수 있음
모든 구독 제공사가 Anthropic보다 돈 대비 한도 가치가 더 좋음. GitHub만 예외인데, 이쪽은 압도적으로 민망할 만큼 비싸고 제한적임
(https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
미국이 아닌 연구소가 만든 모델을 쓰기 싫다는 뜻이라면 미국 모델에 묶이게 되지만, 미국에도 큰 연구소가 여러 곳 있음. 추론이 어디서 수행되는지가 걱정이라면 OpenRouter를 통해 미국을 포함한 12개국 제공사를 쓸 수 있고, 여러 구독 제공사도 여러 국가에서 호스팅함. 선택지는 많음
일단 해보는 걸 추천함. deepseek.com에 $5 넣고, 이 설정을 셸 스크립트에 넣은 뒤 . ./deepseek-claude.sh를 실행하고 평소처럼 claude를 쓰면 됨
export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
export ANTHROPIC_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
export CLAUDE_CODE_EFFORT_LEVEL=max
처음에는 한도에 가까울 때 큰 읽기 작업에 써봤음. 솔직히 Claude만큼 좋지는 않지만 훨씬 싸고 계속 일할 수 있게 해줌. 가끔은 claude와 deepseek 둘 다에게 코드를 보고 다듬는 방법을 묻고, 둘의 답을 비교하는 것도 좋음
월 $100 구독으로 Claude를 쓰고 있음. Opus를 설계자, Sonnet을 구현자/엔지니어, deepseek-pro를 깊은 리뷰어와 테스터로 쓰는 구성을 실험 중인데 예상대로 꽤 좋음
사용 패턴이 유지되면 구독을 월 $20로 낮추고 Deepseek에 더 돈을 넣을 생각임
참고 저장소: https://github.com/aravindhsampath/agentic-template
달러당 성과는 훨씬 좋고, 시간당 성과는 조금 떨어짐
늘 그렇듯 모델마다 막히는 지점이 다름. Cursor 실험, 탐색, 개념 증명 대부분에는 DeepSeek v4 API를 쓰지만, 프로덕션 코드 작성은 OpenAI/Claude보다 덜 신뢰함. DeepSeek가 디버깅이나 계획에 아주 좋을 때도 있고, 막히거나 낮은 품질을 낼 때도 있음. OpenAI와 Anthropic 모델도 마찬가지긴 함
전체적으로 DeepSeek는 쓸 만하지만 Opus 4.8과 GPT 5.5보다는 한 단계 아래로 보임. 모두 최대 사고 설정으로 돌림
추론을 위해 데이터를 외부로 보내는 게 걱정이라면, Fireworks는 오픈 모델을 좋은 성능으로 제공하면서 컴플라이언스와 무데이터 보존을 잘 정리한 회사 중 하나임. OpenCode도 Fireworks와 여러 제공사를 지원하고, Cursor도 Fireworks를 씀
DeepSeek 자체 엔드포인트처럼 초저가 캐시 읽기 혜택은 없지만 Anthropic API 요금보다는 여전히 훨씬 낮음. 다만 지금은 API 요금을 내고 있는 게 아니라는 점이 중요함
DeepSeek와 Xiaomi의 캐시 읽기 할인은 최신 세대 모델이 KV 저장 공간을 덜 써서 캐싱이 더 싸진 것과 관련 있음. 어떤 오픈 모델 추론 제공사도 그 가격을 맞추기로 하지는 않았는데, 추론 가격 구조에 대해 뭔가 말해주긴 하지만 정확히 무엇인지는 모르겠음
최고 오픈 모델들이 프런티어 수준은 아니라는 데 동의함. 큰 그림 계획이나, 큰 틀만 주고 많은 추측을 기대하는 상황에서는 차이가 날 것임. 하지만 구체적 계획에서 코딩하는 데는 충분히 괜찮아 보임. 회사 밖에서만 써서 거대한 코드베이스 경험은 없지만, 뛰어들기 전에 필요한 정보를 모으는 능력이 괜찮아서 필요하면 grep으로 찾아다닐 것 같음
귀찮은 단서가 하나 있는데, 개인 구독 플랜을 많이 쓰면 API보다 훨씬 싸다는 점임. https://she-llac.com/claude-limits를 보면 비용 논의가 복잡해짐. 그래도 오픈 모델을 가지고 놀아볼 가치는 있다고 봄. 소수 회사의 제품 묶음이 아니라 하나의 기술로 다룰 수 있게 해주는 요소 중 하나임
이런 식의 큰 뉴스에 지침. 작은 테스트 묶음으로 한 모델이 다른 모델보다 낫다고 선언하는데, 그 결과를 정말 일관되게 재현할 수 있는지 의문임
공개도 거의 없어서 다른 사람이 테스트나 판단을 직접 검증할 만한 자료가 사실상 없음 DeepSeek V4 Pro의 가장 큰 가치는 낮은 가격임. GPT-5.5보다 훨씬 나은 성능은 기대하지 않고, gpt-5.4 정도 성능만 되어도 여전히 좋은 모델임
기대가 항상 현실은 아님. 모델을 직접 써보는 게 좋음. 솔직히 나는 Pro도 안 쓰고 Flash만 써봤는데, PHP 웹 개발을 함
DSv4 Flash보다 나은 모델이 필요한 일을 거의 하지 않음. Pro는 더더욱 필요 없음
문제와 해법을 충분히 잘 설명할 수 있으면 Flash가 그냥 해냄
문제를 충분히 설명하지 못하거나 귀찮아서 원하는 결과만 설명할 수 있을 때는 GPT 5.5 같은 모델이 스스로 탄탄한 해법을 찾아내는 데 확실히 더 낫다고 느낌
모델 역량 차이는 분명 있지만, 더 작은 오픈 가중치 모델도 대부분의 작업에서 큰 도움이 될 만큼 충분히 좋다는 점도 분명함
비용 대비 성능 때문에 deepseek v4를 쓰고 있음. 전반적으로 다른 몇몇 모델보다 못하다고 느끼지만, 결국 올바른 수용 기준을 주면 어떤 모델이든 작동하게 만들 수 있음
상세한 명세와 테스트를 주고, 제대로 될 때까지 반복할 권한을 주면 됨. 원샷은 성능을 재는 나쁜 지표임
모든 모델이 수용 기준으로 수렴한다고 보지는 않음. 에이전트 기반 모델링과 그 영역의 과학 모델링을 꽤 다양하게 해봤는데, 검증할 기준이 있고 수렴점에 도달할 방법에 대한 아이디어가 있어도 실제로 수렴한다는 뜻은 아님
정보 공간에서 계속 반복하다가 원하는 해법을 찾지 못한 채 갇힐 수 있음
도움이 되긴 하지만 실패 케이스에서는 사람이 개입해 안내하거나 특정 경로를 강제로 고쳐야 해법에 도달하는 경우가 많음
reasonix와 함께 쓰는 DeepSeek V4 Pro는 놀라울 정도로 싸고 대부분의 코딩 작업에 충분히 좋음. GPT 5.5와 Opus 4.8과도 꽤 달라서, 다른 둘이 못 찾는 문제를 가끔 찾아냄
도구함에 넣어둘 가치가 있다고 봄
DeepSeek V4 Pro는 훌륭하고 말도 안 되게 싸지만, MiMo V2.5 Pro를 과소평가하고 있음. 가격은 같고 캐시 가격은 더 낮으며, 멀티모달이고 대부분의 벤치마크에서 더 높은 위치에 있음
MiMo V2.5와 DeepSeek V4 Flash 비교도 마찬가지임
글을 쓰던 시점의 https://news.ycombinator.com/item?id=48343690 기준으로는 MiMo V2.5 Pro의 캐시 적중 가격이 더 낮았음. 원문 내용은 이렇음
OSS 모델은 어느 제공사에서 쓰느냐에 따라 큰 차이가 나며, 주된 이유는 캐시 적중률임
Model Cheapest effectiveInputPrice (Provider)
MiMo-V2.5-Pro 0.3720 (Xiaomi)
DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기