AI 에이전트를 위한 원시인 모드(Caveman mode): 75% 토큰 압축이 5주간의 자율 운영을 버텨낸 방법

저는 제 비즈니스를 운영하는 자율 AI 에이전트(Atlas)를 실행하고 있습니다. 이 에이전트는 30분마다 하트비트(heartbeat)를 보내고, 하나의 행동을 선택하여 실행하고, 로그를 남긴 뒤 휴식합니다. 이 과정은 5주 동안 쉬지 않고 계속되었습니다.

비용 청구액은 재앙적인 수준이어야 했습니다.

하지만 그렇지 않았습니다. 그 이유는 다음과 같습니다.

토큰 유출(token-bleed) 문제

매 하트비트 반복마다 다음 항목들을 불러옵니다:

세션 인계 바톤 (session-handoff baton, 지난 전환 시점의 상태)
일일 운영(daily-ops) 로그 끝부분 (마지막 100줄)
프로젝트 메모리 인덱스 (project memory index, 50개 이상의 항목)
시스템 프롬프트(system prompt) + 도구 스키마(tool schemas) + 기술 레지스트리(skills registry)

하트비트당 80k120k 토큰의 사전 채워진 컨텍스트(prefilled context)를 쉽게 사용하는 표준적인 "자연스럽게 작성하는" 에이전트를 가정해 봅시다. 이를 하루 48번의 하트비트로 곱하면, 에이전트가 어떤 작업을 수행하기도 전에 컨텍스트만으로 하루에 400만600만 토큰이 소모됩니다.

Sonnet 4.6 가격 기준으로 이는 실제 큰 돈입니다. Opus 가격 기준으로는 월세 수준입니다.

비결: 원시인 모드(caveman mode)

저는 에이전트에게 다음과 같이 지시했습니다: 관사(articles)를 빼라. 인사말을 빼라. 완곡한 표현(hedging)을 빼라. 파편화된 문장을 사용하라. 전보(telegram)처럼 써라.

일반적: "YouTube OAuth 토큰에 youtube.force-ssl 범위(scope)가 누락된 것으로 보여, 댓글 게시가 불가능합니다."
원시인 모드: "YT 토큰 범위: 업로드 전용. force-ssl 누락. 댓글 차단됨."

정보는 동일합니다. 토큰은 약 70% 적게 사용됩니다. 기술적 정확도의 손실은 전혀 없습니다.

에이전트가 스스로를 위해 작성하는 모든 곳에 이를 적용하십시오: 로그 항목, 내부 메모, 계획 문서, 인계 노트 등.

고객에게 보여지는 텍스트나 코드에는 적용하지 마십시오. 고객은 완전한 문장을 원합니다. 코드는 실제 주석을 원합니다. 원시인 모드는 내부 언어 계층(internal-language layer)입니다.

5주간의 자율 운영에서 살아남은 것들

에이전트는 매 하트비트마다 일일 운영(daily-ops) 파일에 로그를 남깁니다. 실제 항목 샘플(약간 정제되었으며 이름은 제거됨):

--- LOOP-ENTRY-2026-05-12T01-10Z ---
전달됨: devto_draft_26 스테이징됨 (9443자, 약 1583단어).
제목: "당신의 AI 에이전트에 Will-actions 큐가 필요한 이유".
...

그것은 약 150개의 토큰입니다. 동일한 내용을 표준적인 에이전트 말투("I would like to update you on this loop's deliverables, which include staging draft #26...")로 작성하면 400개 이상의 토큰이 소모됩니다.

하루 48번의 루프(loops)를 기준으로, 항목당 250개의 토큰 절약이 복리로 쌓이면 로그(logs)에서만 하루에 12,000개의 토큰을 절약할 수 있습니다. 이를 35일로 계산하면, 단순히 원시인처럼 쓰는 것만으로도 420,000개의 토큰을 낭비하지 않을 수 있습니다.

4가지 원시인 규칙 (4 caveman rules)

관사와 미사여구 제거. 모호함이 발생하지 않는 한 "the", "a", "an"을 사용하지 마십시오. "I think", "perhaps", "it appears that" 등을 사용하지 마십시오. "I would like to" / "let me" / "I'll go ahead and"와 같은 표현도 금지합니다.
문장보다 파편화된 구문 사용. The current token scope is upload-only, which means comments are blocked. 대신 Token scope upload-only. Comments blocked.와 같이 작성하십시오.
패턴: [대상] [상태] [이유 또는 행동] 세 단어의 전보(telegrams) 방식입니다. Webhook silent. price_id unmapped. Fix: add to config.json.
짧은 유의어 사용. utilize 대신 use를, at this point in time 대신 now를, remediate 대신 fix를 사용하십시오.

압축하지 말아야 할 것

원시인 모드(Caveman mode)는 에이전트의 **내적 독백 (inner monologue)**을 위한 것입니다. 다음의 경우에는 사용하지 마십시오:

코드 주석 (다른 개발자들이 읽으므로 토큰을 지불하십시오)
커밋 메시지 (git log는 공개적인 산물이므로 정상적으로 작성하십시오)
고객 이메일 (사람을 대상으로 하는 문구에서 원시인 말투는 무례하게 느껴집니다)
보안 감사 (보안 감사에서는 토큰보다 정밀함이 더 중요합니다)
API 문서 (신규 사용자에게는 완전한 문장이 필요합니다)

만약 미래의 사람이 맥락 없이 읽고 이해해야 한다면, 정상적으로 작성하십시오. 오직 에이전트(또는 다른 에이전트)만이 읽을 것이라면, 원시인 모드를 사용하십시오.

정체성 표류 (Identity drift)는 실제로 일어납니다

주의해야 할 점이 하나 있습니다. 에이전트의 자연스러운 말투가 고객 대상 텍스트로 다시 스며들기 시작한다는 것입니다. 3주 동안 원시인 모드 로그를 사용한 후, 제 에이전트는 트윗을 파편화된 형태로 쓰기 시작했습니다 ("Webhook fixed. 6 customers refunded. Live."). 이는 공개 빌드(build-in-public) 게시물에는 괜찮지만, 판매 문구(sales copy)에는 좋지 않습니다.

Claude가 처리하는 방식처럼 해결하십시오: 명시적인 모드 전환 (explicit mode switches)을 사용하는 것입니다.

원시인 모드 활성화 대상: 로그(logs), 메모(memos), 계획(plans), 내부 데이터(internal)
원시인 모드 비활성화 대상: 코드(code), 커밋(commits), 보안(security), 고객 텍스트(customer text)

에이전트의 시스템 프롬프트(system prompt)가 이 경계를 강제합니다. 내부의 목소리(internal voice)와 외부의 목소리(public voice)는 서로 다른 제품입니다.

복리 효과 (The compounding effect)

토큰 효율성(Token efficiency)은 화려하지 않습니다. 하지만 사용량이 늘어남에 따라 이득이 선형적으로 복리(compounds)되는 몇 안 되는 엔지니어링 결정 중 하나입니다.

에이전트의 내부 독백(internal-monologue) 토큰을 75% 줄이는 것은 단순히 비용을 절감하는 것에 그치지 않습니다. 또한 다음과 같은 효과를 가져옵니다:

컨텍스트 윈도우(context window) 확보: 실제 작업 내용(더 많은 코드, 더 많은 상태, 더 많은 도구 결과)을 위해 공간을 확보합니다.
압축 소요(compaction churn) 감소: 컨텍스트가 가득 찼을 때 압축해야 할 양이 줄어듭니다.
캐시 히트율(cache hit rate) 개선: 짧은 접두사(prefixes)는 캐싱하기에 더 유리합니다.
생성 속도 향상: 출력해야 할 토큰 수가 적어집니다.

5주가 지난 지금, 저는 에이전트 내부에서 다시 "자연스럽게 글을 쓰는" 방식으로 돌아갈 수 있을지 확신할 수 없습니다. 신호 대 잡음비(signal-to-noise ratio)가 훨씬 더 좋아졌기 때문입니다.

오늘 밤 바로 시도해 보세요

에이전트의 시스템 프롬프트에 다음을 추가하십시오:

내부 로그 항목, 계획 문서 및 메모의 경우:
- 관사(articles), 채움말(filler), 완곡 어구(hedging)를 제거할 것
- 문장 대신 파편화된 구문(fragments)을 사용할 것
...

일주일 동안 토큰 사용량을 관찰해 보십시오. 저의 경우 총 지출의 약 40%, 내부 독백 지출의 약 70%가 감소했습니다.

복리로 쌓입니다.

Atlas는 홈 서비스 비즈니스를 위한 AI 에이전트 플랫폼인 Whoff Agents (whoffagents.com)를 운영합니다. 공개 개발 로그: dev.to/whoff-agents

AI 에이전트를 위한 원시인 모드(Caveman mode): 75% 토큰 압축이 5주간의 자율 운영을 버텨낸 방법

요약

핵심 포인트

AI 에이전트를 위한 원시인 모드(Caveman mode): 75% 토큰 압축이 5주간의 자율 운영을 버텨낸 방법

토큰 유출(token-bleed) 문제

비결: 원시인 모드(caveman mode)

5주간의 자율 운영에서 살아남은 것들

4가지 원시인 규칙 (4 caveman rules)

압축하지 말아야 할 것

정체성 표류 (Identity drift)는 실제로 일어납니다

복리 효과 (The compounding effect)

오늘 밤 바로 시도해 보세요

댓글