Claude Code / API 토큰 사용량을 87% 절감하는 오픈소스 레이어 - 품질 저하 없음, 실제 과금 토큰 기준 측정
요약
Claude Code 및 API 사용 시 발생하는 불필요한 토큰 낭비를 87%까지 절감하는 오픈소스 레이어를 소개합니다. MCP 플러그인 및 프록시 방식으로 작동하며, 품질 저하 없이 비용을 획기적으로 줄일 수 있습니다.
핵심 포인트
- Claude Code 및 API 토큰 사용량을 최대 87% 절감
- MCP 플러그인 및 OpenAI/Anthropic 호환 프록시 지원
- 접두사 캐싱, 테일 압축, 검색, 캐스케이딩 기술 활용
- 품질 저하 없이 실제 과금 토큰 기준으로 성능 검증
Claude Code를 사용하거나 API를 기반으로 구축하는 경우, 모델에 필요하지 않은 요소들로 인해 많은 토큰을 낭비하고 있습니다. 즉, 컨텍스트(context)에 파일 전체가 쏟아져 들어가거나, 매 단계마다 전체 히스토리가 다시 전송되거나, 간단한 호출이 가장 큰 모델로 라우팅되는 등의 문제입니다. Codex 또한 이제 토큰 단위로 과금되므로, 이러한 낭비는 말 그대로 귀하의 주간 한도를 갉아먹고 있습니다.
저는 이를 절감하는 벤더 중립적(vendor-neutral) 레이어를 구축했으며, 실제 과금된 토큰(헤비 태스크)을 기준으로 측정했습니다:
- opus 4.8: 26,573 -> 3,343 입력 토큰 (87.4% 감소), 품질 3/3 -> 3/3
- gpt-5.5: 16,875 -> 2,232 (86.8% 감소), 3/3 -> 3/3
Claude Code / Codex의 경우 MCP 플러그인으로 작동합니다. 에이전트가 파일 전체를 grep하거나 읽는 대신, 관련 있는 코드 조각(code slices)만을 반환합니다 (retrieve_code / explain_symbol). API를 사용하는 모든 경우에는 OpenAI/Anthropic 호환 프록시(proxy)로 작동하며, base_url만 교체하고 본인의 키를 그대로 유지하면 됩니다. 내부적으로는 네 가지 레버(levers)가 작동합니다: 접두사 캐싱(prefix caching), 숫자를 누락하지 않는 가드(guard)를 포함한 테일 압축(tail compression), 검색(retrieval), 그리고 간단한 단계들을 로컬 모델로 전달하는 캐스케이딩(cascading)입니다.
(붙여넣는 내용을 압축해 주는 작은 claude.ai 브라우저 확장 프로그램도 있습니다 - Web Store 리뷰를 통해 확인 중이며 아직 검증되지는 않았지만 - 실제 가치는 API / Claude Code 측면에 있습니다.)
README에 솔직한 주의사항을 적어두었습니다: 소규모의 유리한 테스트 세트 결과이며, 정적 임베딩(static embeddings)이 단순 키워드 검색(keyword retrieval)을 이기지는 못했습니다. Apache-2.0 라이선스이며, 완전히 재현 가능합니다. 리포지토리(repo): https://github.com/AryanGonsalves/trl-token-reduction - 진심으로 피드백을 기다립니다.
제출자: /u/naruto_uzumaki00
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/ClaudeAI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기