AI 코딩 에이전트를 위한 제로 의존성 토큰 압축기 구축 방법 (고등학교 기말고사 기간 중)

개발자로서 우리는 Cursor, Claude Code, GitHub Copilot, Windsurf, 또는 Cline과 같은 AI 코딩 에이전트와 함께 일하는 시간이 점점 늘어나고 있습니다.

하지만 세션이 길어질수록 두 가지 주요 문제에 직면하게 됩니다:

컨텍스트 윈도우 인플레이션 (Context Window Inflation): 긴 실행 루프, 장황한 모델 추론 과정, 필터링되지 않은 터미널 로그 덤프가 컨텍스트 윈도우를 막히게 하여 LLM이 '중간에 길을 잃고(lost in the middle)' 환각(hallucinating)을 일으키기 시작합니다.
재정적 오버헤드 (Financial Overhead): 큰 컨텍스트 윈도우는 더 많은 토큰 사용량을 의미하며, 이는 곧 더 높은 API 비용으로 이어집니다.

이를 해결하기 위해 저는 **TITAN (Token Intelligence Through Agent Narrowing)**을 구축했습니다. TITAN은 AI 에이전트의 토큰 소비를 추론 품질 저하 없이 **70%에서 85%**까지 압축하도록 설계된 범용적이고 제로 의존성(zero-dependency) CLI 프레임워크입니다.

더 흥미로운 점은, 제가 이 주에 고등학교 기말고사 기간 중 (이탈리아의 la maturità) 혼자 힘으로 작성하고 배포했다는 것입니다.

작동 원리를 내부적으로 설명드리겠습니다.

핵심 철학: 다층 압축 (Multi-Layer Compression)

TITAN은 토큰 최적화를 단일한 후처리 단계로 접근하는 것이 아니라, 세 개의 직교적이고 곱셈적인 레이어(orthogonal, multiplicative layers)로 접근합니다:

Total Savings = 1 - ( (1 - L1_Savings) * (1 - L2_Savings) * (1 - L3_Savings) )

레이어 1: 언어적 압축 (Linguistic Compression, Caveman Engine)

LLM이 표준적인 장황한 영어 산문(예의 표현, 완곡어법, 채움말, 기술적 서술 등)을 출력하도록 두는 대신, Caveman Engine은 모델에게 밀도가 높고 전보식 문법(telegraphese grammar)을 사용하도록 지시합니다:

채움말/완곡어법 제거: basically, actually, likely, probably $\to$ 제거.
관사 제거: the, a, an $\to$ 제거 (안전한 경우).
구문 축약 허용: 주어/조동사 생략 $\to$ 예: `

Layer 2: 구조적 코드 압축 (Ponytail Lazy Ladder)

에이전트가 단 한 줄의 코드를 작성하기 전에, 가장 게으르고 최소한의 솔루션을 보장하기 위해 **6단계 논리 사다리 (6-rung logical ladder)**를 통과해야 합니다.

YAGNI (You Ain't Gonna Need It): 이 기능이 지금 당장 실제로 존재해야 하는가? 아니라면 건너뜁니다.
Stdlib (표준 라이브러리): Node.js/JS 네이티브 표준 라이브러리 (stdlib)로 가능한가? 가능하다면 그것을 사용합니다.
Native (네이티브): 플랫폼 네이티브 API가 있는가? 그것을 사용합니다.
Existing (기존 패키지): 이미 설치된 패키지가 있는가? 새로운 npm 의존성 (dependency)을 추가하지 마세요.
One Line (한 줄 작성): 한 줄로 작성할 수 있는가? 인라인 (Inline) 처리합니다.
Minimum (최소화): 오직 그 단계에서만, 작동하는 절대적인 최소한의 코드를 작성합니다.

모든 의도적인 단순화는 인라인으로 문서화됩니다: // ponytail: <상한선 (ceiling)>, <업그레이드 경로 (upgrade path)> (예: // ponytail: 로컬 메모리 캐시, 멀티 노드 설정이 필요한 경우 Redis 사용).

Layer 3: 문맥적 압축 (CLI 유틸리티)

메모리 파일 (Memory Files): 정적 문서 파일(예: CLAUDE.md)은 코드 컨벤션 (convention)을 정확하게 유지하면서 산문(prose)을 제거하기 위해 사후에 압축되며, 매 턴마다 입력 토큰 (input tokens)을 최대 45%까지 절약합니다.
터미널 스트림 필터링 (Terminal Stream Filtering): 빌드/테스트 로그를 파이프 (pipe)로 연결하여 Vite/Webpack 시작 노이즈, husky 배너를 제거하고, 거대한 스택 트레이스 (stack traces)를 에러 헤더와 첫 번째 관련 애플리케이션 프레임으로 축소합니다.

npm run build 2>&1 | titan filter

제로 의존성 규칙 (The Zero-Dependency Rule)

표준 라이브러리를 사용하는 구조적 (L2) 규칙에 따라, TITAN은 외부 npm 의존성 (dependencies)이 전혀 없습니다 (zero external npm dependencies).

TITAN은 모든 작업에 Node.js 네이티브 기능(fs, path, readline, child_process, https)을 사용합니다:

YAML 프론트매터 (frontmatter) 파서는 따옴표가 있는 문자열, 리스트 배열, 멀티라인 블록 스칼라(| 및 >)를 처리하는 들여쓰기 인식 상태 머신 (indentation-aware state machine)으로 구현되었습니다.
테스트 러너 (test runner)는 Node의 네이티브 node:test 및 node:assert 모듈을 사용합니다.
시스템 명령은 네이티브 서브프로세스 스폰 (subprocess spawns)을 통해 실행됩니다.

사용 가능한 지능 밀도 (UID) 측정

프롬프트 압축이 AI의 코딩 및 추론 능력을 저하시키지 않는지 검증하기 위해, 저는 **사용 가능한 지능 밀도 (Usable Intelligence Density, UID)**를 측정할 수 있는 평가 하네스 (evaluation harness)를 TITAN에 구축했습니다:

$$\text{UID} = \frac{\text{평균 정확도 (Avg Accuracy) %}}{\text{평균 총 토큰 수 (Avg Total Tokens)}} \times 1000$$

5가지 태스크 세트(코딩, 디버깅, 로직, 리팩토링, 코드 리뷰)에 대한 모의 및 실증적 LLM 실행 결과, 각 변체(variant)의 성능은 다음과 같습니다:

변체 (Variant)	평균 정확도	평균 입력 토큰	평균 출력 토큰	평균 총 토큰	UID (밀도)	상태
Baseline	100%	50	198	248	403.2	Reliable
...

Lite / Balanced: 밀도를 극대화하면서도 100%의 일정한 정확도를 달성합니다.
Aggressive: 전보식 (Telegraphic) 모드입니다. 토큰 효율성을 극대화하지만, 매우 추상적인 연역 과제에서는 논리적 추론 능력이 약간 저하되기 시작합니다.
참고: 전체 TITAN 프롬프트의 큰 입력 토큰 수는 전체 마스터 규칙 세트 (master ruleset)를 로드하는 데 드는 비용을 반영합니다. titan_lite 변체는 프롬프트 크기와 출력 압축 사이의 균형을 훌륭하게 맞춥니다.

시작하기

npm을 통해 TITAN을 전역(globally)으로 설치할 수 있습니다:

npm install -g titan-agent-cli

그 다음, 사용 중인 에디터에 맞춰 규칙 세트 (ruleset)를 초기화하세요. 예를 들어, Cursor 규칙 (.cursor/rules/titan.mdc)을 생성하려면:

# Standard balanced configuration
titan init --agent=cursor

...

로컬에서 네이티브 단위 테스트 (unit tests)를 실행하려면:

titan test

그리고 코드베이스를 스캔하여 활성화된 기술 부채 (technical debt) 꼬리표 주석을 찾으려면:

titan debt

오픈 소스 및 기여

TITAN은 완전히 오픈 소스입니다. 여러분의 의견, 기여, 또는 GitHub 스타를 기다리고 있습니다!

GitHub 저장소: github.com/Raxyl00/titan-agent-cli
NPM 패키지: npmjs.com/package/titan-agent-cli

표준 라이브러리 YAML 파서 (parser)에 대한 피드백이나 새로운 IDE를 위한 어댑터 (adapter) 확장 아이디어가 있다면 아래 댓글로 알려주세요!