회사처럼 돈 쓰지 않고 집에서 AI 코딩하기

정체기에 온 것 같고, 다음 단계로 어떻게 올라가야 할지 모르겠음. 지금은 월 $100 Codex 플랜에서 5.5-xhigh를 계속 쓰는데 충분해 보임
다음에 할 일을 생각하고, 채팅 세션으로 구현 직전까지 요청 내용을 구체화한 뒤, Codex가 커밋 단위 작업을 처리하면 로컬 개발 서버에서 간단히 확인함. 필요하면 수정 요청하고, 그다음 커밋하게 한 뒤 명세 기반으로 다음 단계를 추천받음. 어차피 종종 샌드박스 밖 요청을 “승인”해야 하기도 함
밤새 돌려야 할 만한 작업은 아직 못 찾았음. 큰 계획을 한 번에 시킬 수도 있겠지만, 중간 산출물을 조금 다르게 하고 싶어지는 일이 잦아서 낭비처럼 느껴짐
다음으로는 Codex GUI 요청을 터널링할 수 있는 머신 VM 같은 걸 알아봐야 할 듯함. 내 Mac 전체에 “위험한” 접근 권한을 주고 싶지는 않음
사이드 프로젝트에서 사람들이 뭘 하길래 토큰을 그렇게 빨리 태우고, 월 $200 구독 2개에 추가 토큰 과금까지 필요한지 이해가 안 됨

그건 문제를 엔지니어처럼 다루고 있어서 그렇고, “인플루언서”나 “10배 개발자”처럼 다루지 않기 때문임. 엔지니어링으로 해결할 문제로 보고 AI는 그 도구일 뿐이라고 보는 방식임. 내 경험상 엔지니어에게 몇 시간씩 무인 AI 코드 생성이 필요한 문제는 거의 없음
AI가 몇 시간씩 계속 갈아 넣는 게 조금이라도 말이 되는 경우는 딱 하나 찾았음. 다섯 개의 펌웨어 이미지가 들어 있는 위젯을 역공학 중인데, 바이너리를 덤프해서 AI에게 서로 얽힌 펌웨어 프로젝트들을 디컴파일하고 역공학하게 했음. 복잡하지만 범위는 아주 잘 정의된 작업임. 어려운 일이라기보다 양이 많은 일이고, 결과물은 C처럼 생긴 텍스트 더미로서 정보 제공용일 뿐 직접 컴파일될 수는 없음. 출력 품질은 입력 어셈블리에 강하게 묶이고, 전체 산출물은 코드 형태의 문서임
위험 부담이 0이라서 AI가 무인으로 마음껏 처리하게 둬도 거리낌이 없음. 그래도 AI가 어셈블리를 알아볼 수 있는 C 프로젝트 형태로 두들겨 놓으면 내가 읽고 추론하기 훨씬 쉬워짐. 쉬운 승리라고 봄

비전문가들이 AI로 뭔가 만드는 영상을 꽤 봤는데, 12시간 작업을 태우는 사람들은 말 그대로 출력을 읽지도 않고 뭘 하는지도 이해하지 않음
프로그램을 만들어 달라고 한 직후, 만들어지면 바로 AI에게 실행 방법을 물어보는 식임. 버그가 나면 AI에게 뭐가 잘못됐는지 묻거나, 전체를 버리고 모델/하네스를 바꿔 다시 시도함
예시는 https://m.youtube.com/watch?v=xc1296HY8Fw&ra=m
당신이 설명한 전문적인 작업 흐름과는 완전히 다름. 소비자용 장난감에 가까움

Claude는 월 $20 플랜으로 낮췄고, 지금은 거의 웹 채팅용으로만 씀. 코딩은 Claude Code에 DeepSeek를 API 요금제로 설정해서 사용함
320,000,000 토큰에 약 $4.8 정도 썼음. Claude 플랜을 쓸 때는 가격을 정당화하려면 LLM이 항상 뭔가 하고 있어야 한다는 압박이 있었음. DeepSeek로 바꾸니 더는 그런 생각을 안 하게 됨. 구독을 안 쓰고 있어도 죄책감이 없고, 한도도 걱정하지 않음. 그냥 더 내면 되기 때문임. 특히 시간당 제한이 없으니 병렬 실행에서 차이가 크게 느껴짐

“다음에 뭘 할지 생각한다”가 실제 일을 하려는 모두가 발견하는 진짜 병목임. 시스템이 내 사고 속도를 따라오고 있다면 잘하고 있는 것임
토큰을 더 산다고 사고 능력이 “레벨업”되지는 않음. 더 자동화된 걸 돌리는 사람들은 자기 생각보다 앞질러 달리고 있을 가능성이 크고, 결국 그게 발목을 잡을 것임

월 $200 Codex로 아이들을 위한 게임을 재미와 호기심으로 만들고 있음. 개발자이고 게임은 해봤지만 게임 개발은 해본 적이 없음. 밤새 도는 작업도 있는데, 대부분은 “내 3D 에셋 파이프라인을 돌보고 뭔가 추가하는 데 시간 쓰기”임
RTX 5090에서 Trellis2 -> ultrashapes -> Trellis2 -> 리깅 연결과 애니메이션 설정을 돌림
다만 그 작업의 99%는 Codex가 출력물을 기다리는 시간임. 12시간 돌아도 대부분은 많은 sleep을 설정하는 것뿐임. 토큰을 다 써본 적은 없음. 월 $100 Codex는 10개 에이전트를 동시에 돌리며 에셋 파이프라인을 미친 듯이 코딩하니 3일쯤 만에 주간 한도에 걸려 업그레이드했음. 월 $200 플랜은 크레딧이 4배라 아직 벽에 부딪힌 적이 없고 마음껏 달릴 수 있음

“처음은 셀프 호스팅이다. 머신을 사고, 오픈소스 모델을 로컬에서 돌리면 그 뒤로는 토큰당 비용을 내지 않는다”라고 하지만, 전기 요금은 공짜가 아님
내가 보기엔 결국 프라이버시에 프리미엄을 내는 셈이고, 나에게는 그럴 가치가 있음

마침 새 노트북이 필요했고, 관심 있는 다른 것을 다시 컴파일하기에 충분히 빨랐던 중고 M1 Max를 친구에게 꽤 싸게 샀음
그래서 내 경우 추가 하드웨어 비용은 없음. 대체 구매였기 때문임
이 장비에서 집에서 AI 모델을 돌리는 건 내가 원해서이고, 필요하면 OpenRouter를 쓸 것임
이 글의 경제성 계산이 맞다는 건 인정함. 하지만 우리가 사랑했던 일을 하는 기계를 돌보는 사람으로 전락하는 결과가 너무나 슬프게 느껴짐. 장기적으로는 이런 미묘한 차이를 따지는 게 의미가 있을지도 모르겠음
내 삶에서 저지른 실수는—이제는 나이가 좀 있어 사실상 고치기 어렵지만—일에서 충분한 충족감을 계속 얻으면 다른 개인적 충족감의 부재를 상쇄할 수 있다고 믿었던 것임. 좋아하고 잘하는 일을 통해 사람들을 직접 도울 수 있다는 점을 늘 즐겼고, 그게 전통적인 가족생활을 꾸리기 어렵다는 슬픔을 막아줬음
언제나 새로운 방식으로 그 즐거움을 찾을 수 있으리라 생각했지만, 인간의 노력 쪽으로 추가 다시 기울지 않는다면 내 장비로 내 방식대로 이런 것을 탐색하는 작은 즐거움조차 충분하지 않을 것임
우리가 스스로 만든 세상은 암울함. 요즘은 이 안에서 더 늙어가는 게 두려워짐

현세대 카드는 적어도 5년 수명은 기대할 수 있다고 봄. 3090도 24GB RAM 때문에 여전히 쓸 만한데, 몇 년 동안 홈 머신러닝의 제한 요인이 바로 메모리였기 때문임
6000을 사면 7~8천 달러는 들겠지만 재판매 가치는 꽤 좋을 가능성이 큼. 3090도 아직 권장소비자가의 50% 이상임. LLM을 안 하더라도 “전통적인” 합성곱 신경망 비전 모델 학습에는 흥미로운 가치 제안이 됨. 96GB면 엄청난 배치 크기를 넣을 수 있음. 업그레이드의 가장 큰 이유는 와트당 성능이 거의 두 배가 됐다는 점임. 예를 들어 4000 Pro Blackwell은 비슷한 성능에서 3090의 절반 정도임
사람들은 자본 지출이 그냥 사라진다고 가정하는 경향이 있지만, RAM에서 봤듯 필요하면 되팔 수 없을 거라고 확신하지 않는 편이 좋음

태양광이 있으면 사실상 어느 정도 공짜에 가까울 수 있음. 그래서 낮에는 사설 AI 연산이 사실상 더 싸지는 셈인가 싶음

“전기는 공짜가 아니다”에는 흥미로운 사고실험이 있음. AI라면 하루 만에 만들 것을 내가 하루 종일 만들어야 한다면, 전기를 더 쓰는 쪽은 어느 쪽일까?
순수하게 전력 소비 관점에서 손익분기점은 어디일까?

사람들이 어떻게 이렇게 돈을 쓰는지 도저히 모르겠음 월 $60 Cursor 플랜을 자동 모드로 써왔고, 주 4일 저녁 내내 계획하고 코딩하게 해도 포함 사용량에 근접한 적이 없음
대체 뭘 다르게 하길래 비용이 그렇게 많이 드는 걸까?
주문형 사용량이나 다른 유료 모델, 더 높은 모드를 켜는 걸까? 그런 게 왜 필요한지 모르겠음. 내가 작업하는 과제에서는 Auto 출력이 미친 듯이 좋고, 아직 충분한 수준으로 수행하지 못한 문제를 만난 적이 없음
회사에서 팀 합류 면접을 보는데, 지원자들이 현재 직장에서 월 $2K를 토큰에 쓴다고 말함. 도대체 어떤 일이 벌어지면 그렇게 되는지 상상이 안 됨

Claude 엔터프라이즈 플랜은 소비자 플랜보다 30~40배 비쌈
작은 스타트업에서는 Max 플랜에 월 $200을 썼음. 지금은 같은 사용량으로 Claude 엔터프라이즈에 월 수천 달러 초반을 쓰고 있음
Anthropic은 소비자 사용량을 보조하면서, 기업에는 무데이터보존(ZDR)에 대해 꽤 좋은 마진을 붙여 받는 것임

에이전트에 넓은 접근 권한과 효과적인 피드백 루프를 줄 수 있으면, 나는 방향만 잡고 최종 산출물만 확인하면 됨
예를 들어 브라우저, 로그, 지표, GitHub와 CI 로그 등에 접근 가능한 에이전트에게 새 기능을 구현하라고 시킬 수 있음
Slack에 버그 리포트가 몇 개 있으면 에이전트를 몇 개 더 띄움. PM이 UI 수정을 원하면 에이전트를 하나 띄움. 개발자가 하는 많은 일이 꼭 복잡한 건 아니고, 나는 최종 PR을 검토하고 동료에게 하듯 코멘트를 남기면 됨. 그러면 내 에이전트가 돌아가 코멘트를 수정하고 새 리뷰를 요청함
그 사이에 나는 실제 주의를 더 묵직한 기능, 설계 문서, 데이터 분석 등에 쓸 수 있음
개인용으로 월 $300, 업무에서는 수천 달러를 씀. 에이전트는 정말 생산성을 바꿀 수 있고 비용 대비 가치가 충분함
회사 입장에서는 월 몇천 달러를 낼지, 아니면 완전 비용 기준 연 수십만 달러짜리 엔지니어 한 명을 더 뽑을지의 문제임. 지금 시점에서 나에게는 적어도 2배 승수임

그 사람들이 그냥 미친 프롬프트 실력을 과시하려는 것일 수도 있음. 자존심 있는 엔지니어가 월 $2K 미만을 쓰는 모습을 보이겠냐는 식으로
그런 사람들과의 상호작용 맥락을 보면, 꽤 당혹스러운 질문에 대한 가장 단순한 답일 가능성이 큼. 일부러 크레딧을 낭비하게 하지 않는 이상 월 $2K를 쓰는 게 가능해 보이지도 않음

동의함. 그런데 그런 사람들 상당수는 자신이 설정한 사용자 지정 지침/규칙/스킬/기능 이야기도 많이 함. 그러면 시작하기도 전에 문맥 창을 많이 먹어버림
내가 AI를 쓸 때는 순수한 도구 자체만 쓰고, 문맥은 내가 작업 중인 정확한 코드임. 특정 문제 해결에 도움이 되는지 보려는 것이고, 나머지 코드베이스는 내가 충분히 이해해서 좋은 답인지 나쁜 답인지 판단할 수 있음

몇 가지가 있음. 1) 프롬프트를 충분히 정밀하게 쓰지 않아 범위를 좁히지 못하면 에이전트가 코드베이스 전체를 훑고 같은 곳을 반복해서 보다가 막히기도 함. 2) 출력을 확인하지 않아도 대체로 괜찮지만, 가끔 이해를 못 해서 쓰레기를 만들고, 코드를 읽어 문제를 파악하지 않으면 프롬프트만으로 빠져나올 수 없음. 자동으로 놔두면 토큰을 태움
낮은 수준의 것들도 에이전트를 걸려 넘어지게 함. 방금도 함수가 bool 반환값을 요구한다는 오류를 이상하게 읽지 않으려 해서, 같은 일을 10가지 변형으로 시도하다가 내가 끊었음. 스킬도 문제를 일으킬 수 있음. 예를 들어 권한을 주면 내가 쓰는 라이브러리의 소스 코드를 읽는 걸 아주 좋아함. 그건 토끼굴임

“초기 비용은 높고 집에서 실제로 돌릴 수 있는 모델은 선도 연구소가 내놓는 것보다 약하므로, 느리고 저렴한 모델이 밤새 갈아 넣는 장기 실행 작업으로 장비를 계속 바쁘게 할 수 있을 때만 이득이다. 대부분은 홈 머신을 그렇게 계속 부하 걸 수 없고, 오늘 산 하드웨어가 1년 뒤 나쁜 베팅처럼 보일 수 있다”라면, 이건 집에서 하는 AI 코딩 글이 아니라 집에서 하는 바이브 코딩 글임
이 글에는 동의하지 않는 부분이 많음. 나는 GPU 없는 64GB RAM 홈 컴퓨터에서 이 댓글을 쓰고 있고, 돈을 아주 적게 쓰면서 AI 코딩을 많이 함
Ollama로 Gemma 4 26b(전문가 혼합)와 Qwen 3 coder를 돌림. Github Copilot 코드 완성을 쓰고, Gemini와 Mistral API 무료 티어도 씀. Gemini 유료 API 계정도 있는데 이제 선불이라 실수로 $1000 청구서를 받을 걱정이 없음. Gemini Flash Lite 3.1로도 꽤 많은 일을 할 수 있음
이 중 어느 것도 토큰을 태워 비싼 스파게티 코드 덩어리를 만드는 건 아니지만, 분명 AI 코딩에는 해당함

나도 같은 느낌임. 64GB RAM과 24GB 5090이 있는 머신에서 Qwen 3.6 35B A3B를 쓰고 있음. 운 좋게도 사람들이 앞으로 3년치 컴퓨터를 바보처럼 선주문해 모든 걸 망치기 약 15초 전에 Alienware 16 Area51을 샀음
이걸로 “슬롭 대포”식 바이브 코딩은 못 하지만, 이건 내가 스파게티가 되길 원하지 않는 개인 코드라서 바이브 코딩을 하려는 게 아님. 내가 원하는 건 Stack Overflow와 Reddit 글들을 채팅 박스에서 즉시 검색해 주고, TypeScript 코드를 실제로 타이핑해야 하는 물리적 고통을 덜어 주며, 모호한 Docker 문제를 끝없이 디버깅하는 삽질을 줄여 주는 것임. 나는 백엔드 개발자라 프론트엔드에 인내심이 마이너스이고, Docker는 좋아하지만 짜증나는 문제와 끝없는 기벽에는 인내심이 없음. 이 모델은 그걸 아주 잘함

한동안 계속 돌려둘 수 있는 작업들은 분명 있음. 바이브 코딩과 인간 참여 기반 코딩 루틴의 구분은 작업 흐름이 검증되고 모델이 더 똑똑하고 저렴해질수록 흐려질 것이라고 봄
내가 아는 최고의 엔지니어들 대부분은 올해 훨씬 더 많이 바이브 코딩으로 전환했음. 요즘 가능성이 훨씬 좋아졌음

DeepSeek 플랫폼 API를 직접 쓰고, V4 Flash 모델을 Opencode 같은 하네스에 연결하는 것만으로도 충분히 만족스러움. 몇 주 동안 아마 $10 정도 쓴 듯함
셀프 호스팅 모델도 살펴봤지만, 지금 하드웨어는 너무 비쌈

Opencode Go를 쓰되 DeepSeek Flash만 쓰면 더 오래 갈 것 같음. 토큰으로는 $65 상당이지만 월 결제라 다 써야 하므로, 사용량이 적으면 DeepSeek 직접 호출이 더 저렴함
첫 달은 $5, 이후 $10이고 언제든 취소 가능함. 새 이메일로 계속 할인도 받을 수 있음

DeepSeek에서 직접 쓴다는 뜻인가? 내가 이해하기로는 확인은 안 했지만, 다른 AI 운영자들이 DeepSeek 모델 일부를 더 싼 가격에 제공하고 있었음
그래도 흥미로움. 그 가격으로 뭘 얻는 건가? 코딩만인지, 아니면 예를 들어 이미지 생성도 포함되는지 궁금함

집에서는 사람들이 뭘 하는 걸까? 월 $20 Claude 플랜으로 대략 5개의 앱을 코딩하고 있고, 물론 속도 제한에 걸릴 수는 있지만, $3k어치 토큰을 태우려면 뭘 해야 하는지 모르겠음

경우에 따라 다르지만 자동화는 월 $100~$200 플랜을 금방 먹어치우고, 토큰만으로 수천 달러를 태움
고객 지원 이슈의 근본 원인 분석을 시간마다 돌리고, 로그 분석 같은 일일 자동화, KPI 추적과 실행을 위한 주간/월간 자동화도 있음
사이드 프로젝트를 만들 때는 1) 범위가 꽤 잘 정의되어 있고 2) 사용자나 자동화 필요가 없어서 월 $20 플랜 한도 안에 머물기 훨씬 쉬웠음. 지금은 주간 한도에 자주 걸리고 Max 플랜을 여러 개 필요로 함

나도 같음. 월 $20이면 충분하고 매일 코딩에 씀
토큰을 태우는 사람들은 하위 에이전트 여러 개, 로드된 스킬 50개, MCP 도구 40개 같은 구성을 쓰는 것 같음. 그런 것들이 매 턴마다 문맥을 채움

나도 비슷하지만, 나는 아직 생각을 꽤 많이 직접 하고 AI는 직접 하기 싫은 지루한 일을 가속하는 데만 써서 한도에 덜 걸리는 것 같음
집에서 하는 개인 프로젝트에 특히 좋았음. 회사의 지루한 일을 하루 종일 한 뒤에도, 사이드 프로젝트의 반복 작업을 처리하지 않아도 되니 훨씬 작업하고 싶어짐
집에서 수천 달러어치 토큰을 태우는 사람들 대부분은 큰 슬롭 더미를 만들고 있을 가능성이 큼

“$3k어치 토큰을 태우려면 뭘 하냐”에 대한 짧은 답은 슬롭을 만드는 것임
대부분의 코딩은 키보드, IntelliSense, 약간의 코드 생성 템플릿만으로 빠르게 할 수 있음
그런데 사람들이 AI가 모든 걸 해주는 데 의존하게 됐고, 이제 테크 브로들이 마약상처럼 짜내기 시작했음

몇 달 전 NVIDIA DGX Spark에 약 $4,000를 투자했음. 128GB 통합 RAM과 NVIDIA GB10 칩이 있음
RAM, 여러 CPU 코어, 4TB NVMe SSD 덕분에 GPU 없이도 꽤 유능한 ARM64 Linux 컴퓨터이고, 지금까지는 주로 그렇게 쓰고 있음. 그런데 이 하드웨어에서 잘 돌아갈 수 있는, 특히 코딩용으로 가장 성능 좋은 모델이 무엇인지 궁금함

지금 Ars에 쓸 Spark 관련 글을 위해 조사와 테스트를 하고 있는데, Qwen3.6-35B-A3B(nvidia/Qwen3.6-35B-A3B-NVFP4)를 계획 에이전트로, Qwen3-Coder-30B-A3B-Instruct의 FP8 버전(Qwen/Qwen3-Coder-30B-A3B-Instruct-FP8)을 코딩 에이전트로 쓰는 2개 LLM 에이전트 구성에 우연히 도달했음
추론 엔진은 vLLM을 고수하고 있고, Opencode로 2에이전트 루프를 엮어 놓았음
Qwen3.6-35B-A3B 계획자는 초당 50~~55토큰 정도 잘 돌고, Qwen3-Coder-30B-A3B-Instruct 코더는 30~~35토큰 정도 나옴. 두 에이전트를 모두 띄워 작업 대기 상태로 두면 RAM 사용량은 128GB 중 약 112GB임
꽤 괜찮음. 1980년대 MS-DOS 게임을 디스어셈블하게 하며 이것저것 만져보고 있는데, 이 구성에 잘 맞는 작업임. 세상에서 가장 빠르지는 않지만, 계획자 문맥 창을 256k 토큰, 코딩 에이전트를 128k로 두면 꽤 긴 작업 목록도 서로 주고받으며 불평 없이 씹어 먹음. 유일한 실제 문제는 프롬프트를 아주 좁게 잡아도 코딩 에이전트가 LSD라도 한 것처럼 환각을 낸다는 점임. 다만 계획 에이전트가 환각을 잘 잡아내고 작업을 다시 쪼개 코더에게 넘기는 듯함
멋짐. 몇 달 뒤 리뷰 장비를 돌려줘야 할 때 슬플 것 같음
추가로 Antirez의 설정(https://github.com/antirez/ds4)으로 Deepseek v4 Flash도 만져봤는데, 꽤 훌륭하고 실행도 정말 쉬움. 다만 Spark에서는 초당 14토큰 정도로 꽤 느림. 그리고 Spark가 두 대 있지 않다면 한 번에 이 모델 하나만 돌리게 될 것임. RAM을 전부 먹어치움

Deepseek v4 flash는 크기에 비해 놀라울 정도로 강하고, 그 하드웨어에서도 잘 돈다고 알려져 있음

그걸 아직 모르면서 “그렇게 쓰고 있다”면, 글은 “몇 달 전 장난감에 $4k를 날렸다”로 시작해야 할 듯함

DeepSeek V4 Flash는 설명한 하드웨어에서 잘 도는 매우 유능한 코딩 모델임. 특히 로컬 사용에 맞춰 최적화된 버전을 찾아보면 됨

나에게는 하드웨어 투자가 맞는 길처럼 보임
거의 24년 전에 코딩을 배웠고, 지금도 계속 새것을 배우고 있음. 그동안 새것을 배우고 만들기 위해 구독 모델에 의존해야 했던 적은 없었음
LLM과 에이전트가 적어도 앞으로 몇 년간 코딩과 소프트웨어 구축의 기본 도구가 된다면, Halo Strix PC 같은 하드웨어에 $2000~3000를 투자하는 건 당연한 선택처럼 보임

버려진 하드웨어로 “공짜” 선택지가 있을 수도 있지 않을까 생각했음
2018년쯤 제품인 GTX1080ti가 하나 있는데, 안 쓰고 있고 이미 몇 년간 값어치를 충분히 했으니 지금은 하드웨어 비용이 0임
Gemma e4b 멀티모달, qwen 3.5 8b, qwen 4b 임베딩 모델을 충분히 잘 돌림. LLM은 초당 40토큰 이상 나옴
부하 시 벽에서 350W를 먹고, 절전 시 3W, 유휴 시 80W임. 전기요금은 kWh당 £0.035로 영국 기준 저렴한 편임. 집 배터리로 부하 이전을 하기 때문임
출력 토큰 144k개에 약 1펜스이고, 이론상 한 시간이 걸림
무료 하드웨어와 보통 전기요금보다 약 10배 싼 전기요금이 있어도, 훨씬 강력한 deepseek v4 flash 모델을 쓰는 것보다 겨우 조금 더 쌀 뿐임

맞기도 하고 아니기도 함. 하드웨어는 고착 효과가 있음. 128GB 공유 메모리에 만족하고는 있지만, 내가 샀을 때보다 지금 더 비싸진 듯해 약간 걱정됨
Anthropic에 대한 최근 백악관 움직임과, 다음 세대의 좋은 모델이 잘 돌려면 128GB 이상이 필요할 수 있다는 현실을 함께 보면 미래에 좋은 신호는 아님
로컬을 폄하하는 건 아님. 나도 그런 사용자 중 하나이고 구독도 같이 쓰지만, 절충점을 맑은 눈으로 봐야 함

$3k로는 선도 모델급 성능을 얻지 못함. GPU만 사는 게 아니라 전체 PC를 사는 데 나눠 쓰는 거라면 쓸 만한 성능도 간신히 얻는 수준임

3천 달러가 아니라 1만 달러를 생각해야 함

나도 비슷한 생각임. 1년쯤 전에 산 저렴한 16GB VRAM 카드를 쓰고 있는데, 집에서 할 수 있는 것보다 훨씬 높은 초당 토큰 수를 돈 내고 살 수 있다는 건 이해함
하지만 그건 생산성을 코드 줄 수로 재는 느낌임. 내가 하는 일에서는 어떤 구독에서도 이득을 못 느끼고 있음
물론 한 번의 프롬프트로 지루한 CRUD 앱 전체를 새로 만들 수는 없지만, 뭐 어쩔 수 없음

코딩에 brain -> worker 접근을 쓰기 시작했음
Brain은 Claude 구독의 비싸고 똑똑한 모델임. 가능할 때는 Fable 5, 지금은 Opus를 씀
Worker는 로컬 모델(qwen3.6:46B)이고, 36GB GPU에 Opencode + Ollama로 배포했음
Brain은 분석/설계와 작업 생성 담당임. 작업은 worker가 처리할 수 있도록 단순하고 명확해야 함. Worker가 코딩하고, Brain이 검증한 뒤 필요하면 수정 작업을 만듦. 현재 수정 대 작업 비율은 대략 1:20임
집에 GPU가 없으면 qwen3.6은 클라우드에서도 꽤 저렴함
호기심으로 만든 실험적 구성에 가깝지만, 예상보다 잘 작동함. 지금 4일째 코딩 에이전트 3개를 계속 돌릴 수 있게 해줌. 여기서 어떻게 이 구성에 도달했는지 설명했음: https://news.ycombinator.com/item?id=48520757

이제 Opus 4.6에 준하는 것을 로컬에서 돌릴 수 있을까? 서로 다른 얘기를 계속 듣고 있음
$10k를 써서 그게 가능하다면 구독을 끊을 것임. 문제는 직접 확인하려고 돈을 쓰고 싶지는 않다는 것임

선도 모델급을 원한다면 경제적으로 합리적인 선택지는 OpenRouter나 원하는 선도 모델의 직접 구독임
현실적으로는 데이터센터 마진을 보호하려고, 소비자가 단일 구성에서 그 정도 VRAM을 돌릴 수 있는 설정을 제공하지 않음. Apple은 예전에 가능했지만 중단했고, 그 장비들은 지금 eBay에서 개당 $20k 이상에 거래됨
3090/4090/5090/6000 시리즈 카드로도 매우 강력한 모델을 돌릴 수는 있음. 하지만 “선도 모델급”을 원하면 새 제품 기준 최소 약 $22k는 투자해야 함. 중고로는 초기 비용을 훨씬 낮춰 직접 서버를 만들 수 있겠지만, 전기 사용량은 4~6배 이상일 가능성이 큼

$10k로는 Opus나 Sonnet 근처에도 못 감
현재로서는 일반인이 가능한 일이 아님

아쉽지만 Opus 4.6에 준하는 것은 아직 로컬에서 못 돌림. 가장 비슷하게 얻을 수 있는 건 대략 Sonnet 3.7 수준임

$8k를 썼고, 2~3배 느린 Sonnet에 가까운 정도는 얻었음. Spark 2대에서 deep seek v4 flash를 돌리는 구성임

일부 벤치마크에서는 Kimi K2.6이 Opus 4.6과 오차범위 안에 있는 것으로 나왔고, RTX6000 8장으로 돌릴 수 있음
지금은 그런 머신을 처음부터 구성하는 데 $100K 미만으로는 불가능함. 하지만 지금은 자율성에 가격을 매기기도 어려운 시점임

회사처럼 돈 쓰지 않고 집에서 AI 코딩하기

요약

핵심 포인트

댓글