DS4에 대한 몇 마디
요약
본 글은 DeepSeek 4를 구동하는 경량 LLM 추론 런타임인 DwarfStar4(DS4)에 대한 기술적 논의와 AI 에이전트 및 모델 시장의 미래 방향성에 대한 통찰을 담고 있습니다. DS4는 Flash 버전과 양자화된 형태로, 낮은 VRAM 환경에서의 구동 가능성과 효율성이 주목받습니다. 필자는 LLM 성능 향상의 한계가 비용 문제로 수렴할 것이며, '더 똑똑한 모델'의 가치보다 개발자의 시간 및 AI 운영 비용 간의 균형이 중요해질 것으로 예측합니다.
핵심 포인트
- DwarfStar4(DS4)는 DeepSeek 4를 구동하는 경량 LLM 추론 런타임으로, 낮은 VRAM 환경에서의 효율성이 특징입니다.
- LLM 시장은 성능 향상보다는 비용 구조와 개발자 생산성 간의 균형을 찾는 방향으로 진화할 것입니다.
- 최신 AI 에이전트들은 단순히 더 똑똑한 모델에 의존하기보다, 시스템 제어력과 속도(C/Go/Rust 등)를 높이는 것이 중요합니다.
- LLM 기술 발전은 결국 하드웨어 및 운영 비용 문제로 귀결될 것이며, 이는 기업의 도입 결정에 큰 영향을 미칩니다.
DwarfStar4는 DeepSeek 4를 실행할 수 있는 작은 LLM 추론 런타임이고, 블로그 글상으로는 현재 96GB VRAM이 필요한 것으로 보임
맥락이 부족한 사람들을 위한 설명임 :-)
그건 전체 모델이 아니라 Flash 버전이고, 양자화도 대략 Q2~Q3 수준이라 인상적이긴 해도 전체 모델과는 꽤 다름
96GB VRAM이 필요하다는 부분이 있는데, RAM이 더 적은 Mac에서 돌리면 어떻게 되는지 테스트한 사람이 있는지 궁금함
동작은 하되 모델 계층을 저장소에서 가져오면서 조금 느려질 수도 있어 보임
DwarfStar4가 llama.cpp와 어떻게 다른지 궁금함
코딩에 필요한 지능이 어느 지점에서 “충분함”에 도달할지 매우 궁금함
어느 순간부터는 덜 똑똑한 모델을 더 오래 문제에 매달리게 해서 같은 결과에 도달할 수 있고, 내가 개입하지 않는다면 결과적으로 같은 셈임 DeepSeek V4 Pro는 거의 그 지점에 온 느낌이고, Flash도 그럴지 모름
그 지점에 도달하면 Anthropic의 현재 사업 모델 중 얼마나 무너질지도 궁금함
지금까지는 가장 똑똑한 모델에 돈을 내는 게 당연히 가치 있었지만, 이제 그 개념의 성장 여지는 제한적이라는 게 분명해 보임
남은 활주로가 얼마나 긴지가 문제이고, Anthropic이 기업·생산성 쪽으로 급하게 넓히는 것도 이미 이 흐름을 보고 있기 때문인지 궁금함
더 똑똑한 모델은 작은 모델이 못 하는 일을 그냥 해내는 경우가 있음
단순히 더 오래 기다리면 되는 문제가 아닌 듯함
결국 항상 비용의 문제로 갈 것임
개발자 시간, 개발자 비용, AI 비용, 개발자 생산성 사이의 균형임
4.6을 보면 일반 기업 기준으로는 비용 감내 한계에 가까워 보이니, 다른 변수들이 바뀌어야 할 듯함
오픈소스 코딩 에이전트 Kilo가 Deepseek v4 Pro와 Flash를 Opus 4.7, Kimi K2와 비교 테스트했음[1]
결과는 괜찮았지만 Opus보다 점수가 꽤 낮았고, Deepseek의 현재 출시 프로모션 가격을 적용해도 비용이 거의 비슷했음
이 비용 구조가 흥미로운데, Sonnet과 Opus에서도 비슷한 걸 봤고 직접 벤치마크할 때도 가격은 좋아 보이지만 토큰을 너무 많이 써서 “더 비싼” 모델과 비용이 같아지는 모델들이 있었음
[1] https://blog.kilo.ai/p/we-tested-deepseek-v4-pro-and-flash
취미 프로그래머에게는 꽤 빨리 충분히 좋은 수준에 도달하겠지만, 기업은 여전히 더 빠르고 더 똑똑한 모델에 돈을 낼 것 같음
프로그래머를 왜 기다리게 하겠나
이렇게 좁게 집중한 도구를 발견해서 좋음
지원 백엔드는 Metal이 주 타깃이고, 96GB RAM MacBook부터 시작함
NVIDIA CUDA는 DGX Spark를 특별히 신경 쓰고, AMD ROCm은 rocm 브랜치에서만 지원됨
antirez가 직접 하드웨어 접근이 없어서 main과 분리되어 있고, 커뮤니티가 필요할 때 리베이스하는 구조임
이 프로젝트는 llama.cpp와 GGML 없이는 존재하지 않았을 것이며, 감사 섹션을 읽어보라는 내용도 있음
다만 아직 시스템 RAM 오프로딩은 지원하지 않는 듯함[0]
그래서 llama.cpp 이슈도 계속 지켜봐야겠음[1]
[0] https://github.com/antirez/ds4/issues/108
[1] https://github.com/ggml-org/llama.cpp/issues/22319
AMD ROCm이 rocm 브랜치에서만 지원된다는데, 실제로 해본 사람이 있는지 궁금함
이 스레드는 MacBook Pro 이야기가 많지만, 128GB 통합 메모리가 있는 AMD Halo Strix에서 써보고 싶음
그만큼 RAM이 들어간 Mac을 아직 살 수만 있다면 좋을 텐데
Mac Studio에서 로컬 네트워크로 Q4 버전을 써봤는데 좋았음
여러 에이전트와 같이 사용하다가 작업을 너무 잘해서 로컬 모델이라는 걸 처음으로 잊어버린 경험도 있었음
다만 또 다른 에이전트가 정말 필요한지는 의문임
Pi로 구동했는데 Claude Code의 시스템 프롬프트는 프리필 속도를 생각하면 너무 무겁고, 결과는 훌륭했음
OpenCode도 좋은 선택지임
Deepseek 4 전용으로 비슷한 도구를 하나 더 만들면 얻을 게 더 있는지 궁금함
기능적으로는 또 다른 에이전트가 필요하지 않음
하지만 DS4 자체의 아이디어를 따라가면, API 에이전트는 DSML 구문을 JSON으로 번역하는 등 이상한 일을 하게 만들고, 그 결과 정규화나 KV 캐시 체크포인팅 문제가 생김
실제로 그런지와 별개로, 더 정상적인 대안을 제공하는 것도 의미 있음
이 분야에서 더 많은 걸 C/Go/Rust로 작성해서 제어력, 속도, 의존성 감소를 얻으려 하지 않는 이유도 잘 모르겠음
TUI 쪽에서도 상상할 수 있는 게 많음
대부분의 프로젝트는 이미 본 것을 그대로 베끼는 문제가 있는데, 예를 들어 20분 만에 이런 걸 만들었음: https://x.com/antirez/status/2055190821373116619
이제 코드는 싸졌고, 아이디어의 가치가 더 커졌음
오늘날에도 “또 다른 XYZ가 필요한가?”라는 식으로 생각하는 게 맞는지 확신이 없음
새로운 아이디어를 탐색하기 위해서만이라도 가치 있을 수 있음
개인적으로 JavaScript / Node 생태계를 코드에 쓰는 걸 좋아하지 않아서, 새 TUI나 에이전트 워크플로를 탐색할 때 더 편한 도구로 하면 결과와 반복 과정이 달라짐
DS4는 추론 엔진이지 실행 하네스가 아님
추론 API 서버를 제공하고, 코딩 하네스를 거기에 연결하는 방식임
지금은 하드웨어가 안 돼서 못 쓰지만 마음에 듦. M2 Max에 96GB뿐임
일반 사용자나 대중 컴퓨터에서는 못 쓰거나 더 나쁘게 보일 것도 이해함
예전 가정용 컴퓨터가 개인용 컴퓨터가 되기 전에는 장난감 취급받던 게 떠오름
현재 내 하드웨어에서 그나마 쓸 만한 조합은 pi agent + llama.cpp + nemotron cascade-2 모델임
1M 문맥까지 가능하고, 하이브리드 아키텍처라 코드 에이전트가 쓰는 10K·50K·100K 문맥 깊이에서 1/N²처럼 무너지지 않음
며칠 전 비행기에서 인터넷 없이도 pi agent를 llama.cpp 서빙으로 돌릴 수 있었고, 4030토큰/초 정도로 간신히 쓸 만해서 웃음이 났음80토큰/초 정도로 알고 있음
보통 API 속도는 그 두 배인 60
추론 중 센서는 60W 사용을 보여줬고, 배터리는 아마 3시간 이상 버티기 어려울 듯함
모델 크기가 30B뿐이라 KV 캐시와 다른 프로그램 공간이 넉넉하고, 넉넉한 8비트 양자화에서도 괜찮음
한 번에 활성화되는 파라미터가 3B뿐인 MoE A3B가 노후한 M2 Max가 감당할 수 있는 최대치처럼 보임
macOS에서 다르게 동작하는지는 모르겠지만, CUDA와 DeepSeek-V4-Flash-IQ2XXS-w2Q2K-AProjQ8-SExpQ8-OutQ8-chat-v2-imatrix.gguf 조합으로는 문맥까지 포함해 96GB VRAM 안에 들어감
그래서 macOS가 기본적으로 OS나 디스플레이에 몇 GB RAM/VRAM을 쓰는 게 아니라면 이론상 가능해야 할 것 같음
그 컴퓨터에서도 동작할 것 같음
긍정적인 보고가 몇 개 있음
96GB면 특히 제한된 문맥에서는 동작해야 함
다만 M2 Max는 좀 느리긴 함
Claude와 아주 가깝게 느껴져서 놀라움
당연히 훨씬 느리지만, 훨씬 멍청한지는 잘 모르겠음
흥미롭게도 imatrix 양자화가 OpenRouter의 zdr 추론 백엔드가 쓰는 어떤 양자화보다 나아 보임
어제는 자기 서버 프로세스가 자기 자신이라는 걸 내가 말해주지 않아도 알아차렸는데, 로컬 모델에서 그런 건 처음 봄
어떤 프롬프트를 줬는지 궁금함
명백히 일화적 테스트이긴 하지만, DeepseekV4 Pro가 코딩에서는 Sonnet보다 나았음
훨씬 느리지만 지금 프로모션 기준으로는 특히 여러 배 저렴함
모델별 추론 엔진을 새로 만드는 이유가 설명되어 있지 않은 것 같음
그냥 llama.cpp를 쓰면 되는데, 이미 많은 사람이 llama.cpp 통합 작업을 하고 있음
단일 모델에 많은 노력을 쏟는 셈이고, 더 나은 다른 모델이 나오면 금방 구식이 될 가능성이 큼
어떤 논의에서는 사람들이 llama.cpp 브랜치와 ds4 양쪽에 PR을 만들고 있어서, 이 모델에 개발 시간을 투자하는 희소한 인력이 분산되고 있음
소유하지 않은 성숙하고 다루기 힘든 C++ 코드베이스보다, 직접 소유한 집중된 C 코드베이스에서 작업하는 게 훨씬 쉬움
그래도 괜찮음. 사람들이 그 작업을 llama.cpp로 포팅할 것이고 모두가 이득을 봄
ds4의 사용자 경험도 훌륭함. 검증된 모델과 좋은 양자화를 얻기가 매우 쉬움
llama.cpp는 노브가 너무 많아서 훨씬 더 황무지에서 해킹하는 느낌임
전제는 “코드는 싸고, 협업, 예컨대 업스트림 반영은 비싸다”인 듯함
그게 사실인지는 몇 년 뒤에 보게 될 것임
작성자가 여러 번 말했듯, llama.cpp 유지보수자들은 사람이 검토하지 않은 AI 작성 코드가 널리 들어오는 걸 원하지 않음
누군가 그 프로젝트에 지원을 업스트림하려면 자유롭게 하면 되고, 코드는 MIT 라이선스임
어느 지점부터는 llama.cpp나 Linux 같은 크고 유연한 프로젝트에 필요한 추상화·일반화 수준이 파일 수를 엄청나게 늘려버림
더 새롭고 작은 프로젝트가 더 빠르게 움직일 수 있음
DeepSeekV4 Pro는 정말 유능한 모델이고, 특히 제공되는 가격대 때문에 매우 좋음
C에서 raylib 위에 2.5D 엔진을 만지작거리면서 DeepSeek을 보조자로 쓰고 있음
OpenaCode에서 사고 과정 기록이 투명하게 보이는데, 그 사고 과정을 보는 게 놀라울 정도임
읽기는 매우 길지만 쓸모없거나 의미 없는 부분은 없었음
항상 내가 생각하지 못했거나 틀렸던 가정을 DeepSeek이 사고 과정에서 표시하고, 최종 출력에서는 내 flawed request에 맞춰 정렬하곤 했음
그러면 “잠깐, 너도 그렇게 생각했지, 그게 맞고 내가 실수했으니 그 측면도 고려하자”라고 다시 지시하게 됨
이런 걸 내 컴퓨터뿐 아니라 클라이언트 프로젝트나 클라우드 GPU에서 돌릴 수 있으면 좋겠음
강력한 모델을 효율적으로, 클러스터 없이 쓸 수 있다는 핵심 아이디어는 많은 비즈니스 사례에도 여전히 적용됨
이런 방식이 배치 모드에서도 동작하길 기대함
지금은 H200에서 스마트 음성 에이전트의 에이전트형 도구 호출에는 MTP가 있는 4비트 Qwen 3.6 27B가 최고 중 하나처럼 느껴짐
DS4 Flash가 2비트 80B, 활성 13B, MTP 구조라면 더 빠르고 똑똑하면서 동시 시퀀스도 더 많이 허용할 수 있을지 궁금함
이 특별한 2비트 양자화는 꽤 큰 의미가 있어 보임
로컬 모델에서 “지능”이라고 부르든 뭐라고 부르든 성능과 속도가 빠르게 올라가는 걸 보면, 이 영역의 성장률과 천장이 어디일지 궁금함
몇 년 안에 이런 수준의 지능과 성능이 예를 들어 16GB RAM에서도 가능해질까?
여기서 새로운 종류의 무어의 법칙을 정의할 수 있을까?
이런 모델을 ‘큰 모델 냄새’까지 포함해 16GB에 욱여넣는 건 솔직히 오늘날에는 가능하지 않거나 현실적으로 가능하지 않음
아키텍처 혁신, 하드웨어 혁신, 또는 어떤 양자화 기법 혁신이 필요함
문제는 활성화되지 않는 파라미터까지 모두 메모리에 있어야 한다는 점임
전문가 혼합 모델에서도 RAM 안팎으로 파라미터를 바꾸는 건 너무 느림
이 분야 최전선에서 일하는 사람들은 서로 다른 문제를 푸는 병렬 모델이 필요하다고 보는 듯함
까마귀는 인간에 비해 매우 작은 뇌로도 어느 정도 지능을 보이고, 가장 멍청한 인간과 가장 똑똑한 까마귀의 문제 해결 능력에는 겹치는 부분이 있음
그래서 그게 무엇인지가 질문임
Yann LeCun은 우리가 지금 세계 모델이라고 부르는 것이라고 보는 듯함
세계 모델은 언어 같은 구조화된 데이터를 예측하는 것이 아니라 행동을 예측함
어떤 세계가 어떻게 작동하는지 예측할 수 있다면, 이론적으로는 원인과 결과를 추론할 수 있음
원인·결과 추론을 언어와 결합할 수 있다면 진짜 지능에 가까운 것이 나올 수도 있음
방향은 그쪽으로 가는 듯함
그런 시스템의 프로토타입이 나오면 실제로 데이터가 얼마나 필요한지에 대한 질문이 많이 생길 것임
1비트 양자화로 LLM을 줄여도 언어 이해가 꽤 강한 모델이 나오는 걸 이미 봤음
앞으로 몇 년 안에 비교적 낮은 메모리로도 매우 지능적인 AI 시스템을 보게 되는 것이 비합리적이라고 생각하지 않음
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기