후속 보고: 2x RTX PRO 6000에서 실행되는 DeepSeek V4 Flash가 Sonnet 및 Opus보다 실제 코딩 작업을 더
요약
로컬 환경에서 실행되는 DeepSeek V4 Flash가 API 기반의 Claude Sonnet 및 Opus보다 실제 코딩 작업 완료 속도 면에서 더 뛰어난 성능을 보인다는 벤치마크 결과입니다. 품질은 Opus가 우세하지만, 속도와 효율성 측면에서 로컬 모델의 실용성이 입증되었습니다.
핵심 포인트
- DeepSeek V4 Flash는 Sonnet 대비 약 3배 빠른 작업 완료 속도를 기록함
- 품질 면에서는 Opus와 Fable 모델이 여전히 가장 우수한 결과물을 생성함
- 로컬 모델은 밀집 어텐션을 피할 경우 매우 빠른 속도를 유지할 수 있음
- 실제 사용 환경(OpenCode vs Claude Code)에 따른 성능 차이가 존재함
이 글은 긴 컨텍스트(long context) 상황에서도 어떤 로컬 모델이 속도를 유지하는지에 대한 게시물의 후속 글이며, 이곳의 많은 분들로부터 많은 것을 배웠습니다. 그 이후로 계속 측정을 진행했고, 이는 제대로 된 인디 코딩 벤치마크(indie coding bench)로 발전했습니다. vLLM에서 실행되는 DeepSeek V4 Flash는 Sonnet 수준의 품질을 보여주며, API를 사용하는 Sonnet이나 Opus보다 실제 소요 시간(wall-clock time) 측면에서 전체 작업을 더 빠르게 완료합니다 (품질 면에서는 여전히 Opus와 Fable이 승리합니다).
DeepSeek는 작업당 약 2분이 소요되는 반면, Sonnet 5는 작업당 약 6분으로 모든 모델 중 가장 느렸습니다 (DeepSeek보다 대략 3배 정도 느림..!). 새로운 Sonnet은 느리긴 하지만 매우 일관적이고 무작위성(randomness)이 낮지만, 결과에 도달하기까지 많은 턴(turns)이 필요합니다. 또한 많은 분들에게 익숙한 Qwen 3.6 모델들을 기준점(anchoring points)으로 포함했습니다.
저는 우리가 이 모델들을 사용하는 방식대로 테스트했습니다. 로컬 모델은 OpenCode에서 실행하고, API는 Claude Code에서 실행하므로 하네스(harness)는 서로 다르지만, 성능 차이의 모든 원인이 순수하게 모델 때문만은 아닙니다. 저는 이 둘을 분리하려고 시도하지 않았는데, 질문의 핵심이 진공 상태에서 어떤 원시 모델(raw model)이 이기느냐가 아니라, 사람들이 실제로 사용하는 방식으로 설정했을 때 실제로 무엇을 얻을 수 있느냐였기 때문입니다. Opus와 Fable은 여전히 압도적인 차이로 가장 좋은 diff를 만들어내므로, 단 하나의 최고의 답변을 원한다면 그쪽을 선택해야 하지만, 로컬 모델들도 이제 정말 훌륭하며... 밀집 어텐션(dense attention)만 잘 피한다면 매우 빠릅니다!
저는 벤치마킹을 완전히 과하게(OTT) 진행하여, 즐길 수 있는 많은 차트와 상세한 설명, 그리고 전체 데이터 시트를 준비했습니다. https://nqawhc.github.io/articles/local-vs-api/ (여기서 여러 페이지를 탐색할 수 있습니다!)
이제 이 작업을 위한 모든 기초 작업을 마쳤으므로, 향후 새로운 모델들이 출시되면 다시 테스트할 예정입니다.
submitted by /u/xquarx
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기