ZCode: GLM-5.2용 공식 하네스
요약
GLM-5.2 모델을 위한 공식 하네스인 ZCode 출시와 관련된 분석입니다. 하네스가 모델 성능과 비즈니스 해자에 미치는 영향, 그리고 Z.ai의 다양한 도구 생태계와 토큰 할당 정책을 다룹니다.
핵심 포인트
- 하네스는 모델 성능을 개선하고 비즈니스 경쟁력을 확보하는 핵심 요소임
- Z.ai는 CLI 기반 에이전트 통합 및 다양한 멀티모달 도구를 제공함
- GLM-5.2는 성능 면에서 흥미롭지만 비용과 속도 측면에서 시장 입지가 모호함
- ZCode는 Linux를 지원하며 데스크톱 및 CLI 환경을 모두 고려함
데스크톱 앱으로 뭘 해야 할지도 모르겠음. 이런 것들은 헤드리스 VM에서 돌리고, 필요하면 --dangerously-skip-permissions 같은 옵션도 붙일 수 있게 함. 그 플래그가 없어도 내 데스크톱/노트북에서는 신뢰하지 않음
CLI인 건 opencode 데스크톱 코드를 빼냈기 때문임. opencode의 Go/Zen 모델 제공자도 같이 빠졌음
내 추측으로는 문자열 치환을 많이 해서 빠르게 1차 제공자처럼 보이려 했던 것 같음. 그래도 opencode를 일반 제공자로 다시 추가할 수도 있었을 텐데
놀랄 일은 아닌 듯함. 하네스는 기반 모델만큼이나 중요해지고 있음. 하네스만으로 벤치마크 결과를 거의 2배 개선한 사례도 있음
하네스는 빠르게 “모델” 자체의 핵심 구성요소가 되어가고 있다고 봄. 수익 기회를 본 회사가 하네스를 비공개로 두는 건 전혀 이상하지 않음
일부 사용자 요청을 Anthropic으로 보내서 자기 모델용 거래 데이터를 모으고 있을 수도 있음. 그렇다면 숨기고 싶은 요청 추적자를 붙여야 할 수 있음
Anthropic이 Claude 증류에 강한 우려를 표하고 있고, 하네스가 해자라는 생각까지 있다면, 반대편도 자기들이 얼마나 잘하고 있는지와 접근 방식이 드러나지 않게 만들려는 건 크게 놀랍지 않음
Z.ai는 거의 모든 인기 CLI 기반 에이전트와의 통합을 문서화해 둠: https://docs.z.ai/devpack/tool/others
이미 터미널 UI 코딩 에이전트에 익숙하다면 데스크톱 에이전트가 필요하진 않음. 그래도 Codex App/Claude App UI 방식을 선호하는 사람에게는 있는 게 좋음
여기서 유인은 더 많은 토큰일 것 같음. 자체 하네스를 쓰면 제한이 더 넉넉했던 걸로 기억함
GLM 5.2를 OpenCode에서 쓰고 있고, Docker 컨테이너 안에서 CodeNomad를 웹 기반 GUI로 붙여 실행 중임. 어디서든 접근 가능하고, Anthropic 구독 모델을 제외하면 모든 모델이 잘 돌아감
Z.ai 팀이 첫날부터 Linux 지원을 넣은 건 칭찬할 만함
꽤 예뻐 보임. OpenCode 대신 써보고 싶은지는 잘 모르겠음. OpenCode에도 데스크톱 앱이 있고, 개인적으로는 그쪽의 터미널 UI가 더 좋음. 솔직히 Claude Code 터미널 UI보다도 낫다고 봄. 데스크톱 버전은 더 기본적이지만 충분히 괜찮음: https://opencode.ai/download
다만 ZCode, OCR.z.ai, Image.z.ai, Audio.z.ai, AutoClaw 등 https://chat.z.ai/에서 연결되는 것들을 한꺼번에 많이 내놓는 점은 흥미로움. 한 조직이 해내기엔 상당히 많은 양임
Pro 코딩 플랜도 써봤는데, 특정 작업을 끝내는 데 필요한 토큰 수를 감안하면 Opus보다 할당량이 엄청 더 많아 보이진 않음. 그래도 GLM 5.2 자체는 더 강한 Sonnet 같은 모델로 꽤 괜찮음
앱을 실행하면 실제 기본 사용량은 알려줌. 다만 플랜 이름이 웹페이지와 다름
Start plan: 하루 500만 토큰(GLM-5.2 300만, GLM-5 Turbo 200만)
For individuals: 할당량 +150%, $18.00 USD+, 개인 개발자를 위한 전용 Coding Plan 할당량
GPT-5.5/Codex를 매일 쓰는 사람 기준으로, 이미 에이전트 코딩용으로 세팅된 코드베이스에서 GLM-5.2/ZCode가 어떻게 비교되는지 궁금함
GLM 5.2는 애매한 골짜기에 있음. 집에서 돌리기엔 너무 크고, 비슷한 성능의 모델과 비교하면 비싸고 느림. 좋은 차트는 여기 있음: https://deepswe.datacurve.ai/
이건 API 가격만 비교한 것임. Anthropic과 OpenAI의 구독 상품까지 보면 비교가 안 됨. Codex $200 구독은 GPT 5.5 high/xhigh에서 주당 10억 토큰도 쉽게 쓸 수 있음
가장 성능 좋은 오픈 가중치 모델이라는 관점에서는 흥미롭지만, 지금 시장에서 확실한 자리는 없어 보임
요약하면 GLM은 작업을 훨씬 오래 걸리게 할 것이고, 복잡도에 따라 토큰도 더 많이 쓸 수 있음
그래도 훨씬 싸서 내겐 쓸 만함. Claude 경험이 더 많긴 한데, Opus 4.1과 거의 비슷한 수준이라고 봄
UI 관점에서는 Claude Code보다 Codex에 훨씬 가까워 보임. 사실상 Codex의 정확한 복제임
매우 동의함. 손 아이콘, 텍스트 필드의 사용 방식, 사이드바 스타일도 Codex와 1:1로 동일함. 제목이 오해를 부름. Claude Code에 가까운 게 아님
그래서 Codex를 비공개로 유지하는 게 더 우스워 보임. 소프트웨어는 더 이상 누구의 해자도 아님. 그냥 놔줘도 됨
개발 작업용으로 제공자를 거의 매끄럽게 바꿀 수 있는 제공자 중립 터미널 UI나 하네스를 쓰는 사람이 있는지 궁금함
“여기 3개의 AI 제공자가 있고, 코딩 작업에는 이걸 쓰고, 산문 작성에는 이걸 쓰고, 이미지 생성에는 이걸 쓰는” 식의 로컬 컨텍스트를 원함
https://opencode.ai/
OpenCode는 내가 처음 쓴 에이전트 하네스였고 계속 마음에 들었음. 다양한 제공자를 설정할 수 있고, 오픈소스이며 핵심 기여자도 여럿 있음
또 다른 선택지는 Pi(Pi 에이전트 하네스)임. 가벼운 선택지로 훌륭하고 여러 제공자를 지원함. 로컬 모델 서버도 쓸 수 있음
지난 6개월 동안 Pi와 OpenCode를 둘 다 써왔고, 같은 기간에 독점 하네스인 Claude Code, Codex, Cursor는 열어본 적이 없음. 지금은 Pi를 쓰고 있으며, 원하는 어떤 제공자의 어떤 모델로도 세션 중간에 매끄럽게 바꿀 수 있음. 로컬에서 실행 중인 모델을 가리키게 할 수도 있음
사람들이 이쪽이 얼마나 더 편한지 잘 모르는 것 같음. Claude Code와 Codex는 전적으로 벤더 종속에 기대고 있다고 봄
Codex와 Claude Code용으로 스킬을 하나 작성했음. 기본 작업 트리에 오케스트레이터를 지정하고, N개의 보조 작업 트리에 어떤 종류의 AI 작업자가 있든 상관없게 만드는 방식임
오케스트레이터는 각 작업 트리에서 어떤 AI 클라이언트가 실행 중인지 알기 때문에, 어떤 작업을 어떤 AI에 보낼지 지정하기가 꽤 쉬움
각 작업 트리 탭에서 Claude나 Codex를 실행함. AI 터미널 UI별 지침도 조금 있는데, 예를 들어 Codex는 Claude Code에 비해 모니터링이 원시적이라 Codex 작업자에게 새 “메일”을 제대로 감시하는 법을 추가로 적어둠
기본 작업 트리의 오케스트레이터와 작업하면서, 오케스트레이터가 작업자들에게 일을 위임하고 작은 질문에 답하게 함. 결과를 끌어올리고 필요하면 컨텍스트 정리도 도와줌
오케스트레이터와 작업자들은 tmp/* 아래의 단순 공유 파일 시스템으로 소통하고, 함께 크고 다양한 작업량을 처리할 수 있음
iTerm2를 쓰기 때문에, 오케스트레이터가 입력을 수정해 제출함으로써 작업자를 “깨우거나” 터미널 UI가 막은 작업(/clear 등)을 수행하게 하는 iTerm2 전용 Python도 추가했음
저렴한 토큰을 제공하는 중국 오픈 가중치 모델은 좋아하지만, 개인 프로젝트에만 씀
중국은 지식재산과 영업비밀을 훔친 전력이 있고, 중국 법원은 자국 회사를 우대해 왔음. 반면 미국은 지식재산권을 집행할 수 있는 강한 법원이 있음. 회사의 지식재산, 영업비밀, 데이터를 싼 토큰 몇 개 때문에 위험에 노출하고 싶다면 Z.ai 서비스를 쓰면 됨
참고로 Z.AI 모델은 중국이 아닌 인프라에서도 쓸 수 있음
미국도 마찬가지임
모델과 도구의 분리는 입법과 사법의 분리만큼 중요함. 진짜 오픈소스가 아닌 도구나 하네스는 그냥 무시해야 함. 그런 것들은 서서히 생활에 파고들어 벤더 종속으로 목을 조르게 됨
비공개 소스의 중국 에이전트 시스템은 신뢰하기 어렵다고 봄
사실상 전체 사용자 권한을 가진 블랙박스라서, 중국 소유 서버에 전체 시스템을 넘겨주는 셈임. OpenCode와 GLM 제공자를 쓰면 최소한 어떤 파일을 읽었고, 어떤 파일을 편집했으며, 어떤 명령이 실행됐는지는 감시할 수 있음
게다가 중국 국가안보법은 기업이 국가 정보기관 및 방첩 활동에 협조하도록 법적으로 의무화함 [0]. 기업 워크스테이션에 이걸 설치했고 회사 규모가 충분히 크다면, 감시당할 가능성은 단순한 위험이 아니라 거의 확실한 일에 가까움
[0]: https://en.wikipedia.org/wiki/National_Intelligence_Law_of_t...
동의함. 미국 경쟁사도 신뢰하기 어렵긴 마찬가지임. 여기서는 오픈소스가 답이라고 봄
적어도 모델 가중치는 공개되어 있음. 나는 미국인이 아니라서, 가능한 모든 면에서 이쪽이 훨씬 더 신뢰할 만함
미국 정보기관이 선한 쪽인 것처럼 말하는데, 적어도 내게는 전혀 그렇지 않음
미국 제공자도 정확히 똑같음
Opencode 아래에서 컨테이너로 실행하면 됨. 아주 잘 돌아가고, 나는 Pro 플랜으로도 업그레이드했음(월 약 $60). 컨테이너에서 쓰고 싶다면 내 프로필의 프로젝트에 정보가 있음. 그 코드는 전부 오픈소스이고, 내가 내 작업에 필요해서 만든 것임. 다른 방법도 수없이 많을 것임
다만 회사가 어느 나라에 있든, 어떤 에이전트도 베어메탈에서 실행하는 건 강하게 반대함. 내 논문에서도 이 점을 직접적이고 반복적으로 다룸
최근에 별이 몇 개 없는 소프트웨어를 왜 실행하냐고 따지는 사람이 있었는데, 그런 논리에 대해선 별로 할 말이 없음. 나는 수만 명의 사용자를 처리한 시스템을 설계하고 구축해 봤음. 장난치는 게 아님. 내가 만드는 방식은 일반적이지 않고 남이 따라 하라고 권하지도 않지만, 내게는 잘 맞고 복잡한 시스템을 처리하는 내 사고방식에도 맞음
쓰든 말든 자유지만, 제대로 된 근거 없이 시비를 걸 거라면 되받을 각오도 해야 함. 커리어 동안 실수도 많이 했고, 책임을 지는 건 성장에 중요하다고 봄. 유효하고 실질적인 비판을 가져오는 사람이라면 내 코드를 쓰는 데 기꺼이 같이 작업할 수 있음
그래서 Deepseek와 함께 Reasonix를 쓰는 걸 좋아함. 캐시에 맞으면 요청이 사실상 무료가 되고, 그 경로도 Digital Ocean이나 Cloudflare 같은 보조금 없는 미국 제공자를 통함
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기