후속 보고: 2x RTX PRO 6000에서 실행되는 DeepSeek V4 Flash가 Sonnet 및 Opus보다 실제 코딩 작업을 더

이 글은 긴 컨텍스트(long context) 상황에서도 어떤 로컬 모델이 속도를 유지하는지에 대한 게시물의 후속 글이며, 이곳의 많은 분들로부터 많은 것을 배웠습니다. 그 이후로 계속 측정을 진행했고, 이는 제대로 된 인디 코딩 벤치마크(indie coding bench)로 발전했습니다. vLLM에서 실행되는 DeepSeek V4 Flash는 Sonnet 수준의 품질을 보여주며, API를 사용하는 Sonnet이나 Opus보다 실제 소요 시간(wall-clock time) 측면에서 전체 작업을 더 빠르게 완료합니다 (품질 면에서는 여전히 Opus와 Fable이 승리합니다).

DeepSeek는 작업당 약 2분이 소요되는 반면, Sonnet 5는 작업당 약 6분으로 모든 모델 중 가장 느렸습니다 (DeepSeek보다 대략 3배 정도 느림..!). 새로운 Sonnet은 느리긴 하지만 매우 일관적이고 무작위성(randomness)이 낮지만, 결과에 도달하기까지 많은 턴(turns)이 필요합니다. 또한 많은 분들에게 익숙한 Qwen 3.6 모델들을 기준점(anchoring points)으로 포함했습니다.

저는 우리가 이 모델들을 사용하는 방식대로 테스트했습니다. 로컬 모델은 OpenCode에서 실행하고, API는 Claude Code에서 실행하므로 하네스(harness)는 서로 다르지만, 성능 차이의 모든 원인이 순수하게 모델 때문만은 아닙니다. 저는 이 둘을 분리하려고 시도하지 않았는데, 질문의 핵심이 진공 상태에서 어떤 원시 모델(raw model)이 이기느냐가 아니라, 사람들이 실제로 사용하는 방식으로 설정했을 때 실제로 무엇을 얻을 수 있느냐였기 때문입니다. Opus와 Fable은 여전히 압도적인 차이로 가장 좋은 diff를 만들어내므로, 단 하나의 최고의 답변을 원한다면 그쪽을 선택해야 하지만, 로컬 모델들도 이제 정말 훌륭하며... 밀집 어텐션(dense attention)만 잘 피한다면 매우 빠릅니다!

저는 벤치마킹을 완전히 과하게(OTT) 진행하여, 즐길 수 있는 많은 차트와 상세한 설명, 그리고 전체 데이터 시트를 준비했습니다. https://nqawhc.github.io/articles/local-vs-api/ (여기서 여러 페이지를 탐색할 수 있습니다!)

이제 이 작업을 위한 모든 기초 작업을 마쳤으므로, 향후 새로운 모델들이 출시되면 다시 테스트할 예정입니다.
submitted by /u/xquarx
[link] [comments]

Insights

후속 보고: 2x RTX PRO 6000에서 실행되는 DeepSeek V4 Flash가 Sonnet 및 Opus보다 실제 코딩 작업을 더

요약

핵심 포인트

댓글

Claude Fable 5 vs Claude Sonnet 5: API 동작 테스트

Spotify, Kalshi에서의 의심스러운 베팅 이후 노래 스트리밍 50만 건 삭제

트럼프의 14억 달러 규모 암호화폐 제국 내부: 알트코인, 비트코인, 그리고 Michael Saylor의 전략에 대한 지분

NyxID 소개: AI 에이전트에게는 접근 권한을, 사용자에게는 제어권을

Spotify, Kalshi에서의 의심스러운 베팅 이후 노래 스트리밍 50만 건 삭제

트럼프의 14억 달러 규모 암호화폐 제국 내부: 알트코인, 비트코인, 그리고 Michael Saylor의 전략에 대한 지분

NyxID 소개: AI 에이전트에게는 접근 권한을, 사용자에게는 제어권을