Claude Code / API 토큰 사용량을 87% 절감하는 오픈소스 레이어 - 품질 저하 없음, 실제 과금 토큰 기준 측정 - Insights | Molayo

Claude Code를 사용하거나 API를 기반으로 구축하는 경우, 모델에 필요하지 않은 요소들로 인해 많은 토큰을 낭비하고 있습니다. 즉, 컨텍스트(context)에 파일 전체가 쏟아져 들어가거나, 매 단계마다 전체 히스토리가 다시 전송되거나, 간단한 호출이 가장 큰 모델로 라우팅되는 등의 문제입니다. Codex 또한 이제 토큰 단위로 과금되므로, 이러한 낭비는 말 그대로 귀하의 주간 한도를 갉아먹고 있습니다.

저는 이를 절감하는 벤더 중립적(vendor-neutral) 레이어를 구축했으며, 실제 과금된 토큰(헤비 태스크)을 기준으로 측정했습니다:

opus 4.8: 26,573 -> 3,343 입력 토큰 (87.4% 감소), 품질 3/3 -> 3/3
gpt-5.5: 16,875 -> 2,232 (86.8% 감소), 3/3 -> 3/3

Claude Code / Codex의 경우 MCP 플러그인으로 작동합니다. 에이전트가 파일 전체를 grep하거나 읽는 대신, 관련 있는 코드 조각(code slices)만을 반환합니다 (retrieve_code / explain_symbol). API를 사용하는 모든 경우에는 OpenAI/Anthropic 호환 프록시(proxy)로 작동하며, base_url만 교체하고 본인의 키를 그대로 유지하면 됩니다. 내부적으로는 네 가지 레버(levers)가 작동합니다: 접두사 캐싱(prefix caching), 숫자를 누락하지 않는 가드(guard)를 포함한 테일 압축(tail compression), 검색(retrieval), 그리고 간단한 단계들을 로컬 모델로 전달하는 캐스케이딩(cascading)입니다.

(붙여넣는 내용을 압축해 주는 작은 claude.ai 브라우저 확장 프로그램도 있습니다 - Web Store 리뷰를 통해 확인 중이며 아직 검증되지는 않았지만 - 실제 가치는 API / Claude Code 측면에 있습니다.)

README에 솔직한 주의사항을 적어두었습니다: 소규모의 유리한 테스트 세트 결과이며, 정적 임베딩(static embeddings)이 단순 키워드 검색(keyword retrieval)을 이기지는 못했습니다. Apache-2.0 라이선스이며, 완전히 재현 가능합니다. 리포지토리(repo): https://github.com/AryanGonsalves/trl-token-reduction - 진심으로 피드백을 기다립니다.

제출자: /u/naruto_uzumaki00
[link] [comments]

Insights

Claude Code / API 토큰 사용량을 87% 절감하는 오픈소스 레이어 - 품질 저하 없음, 실제 과금 토큰 기준 측정

요약

핵심 포인트

댓글

workweave/router

선정 스코어카드에는 여전히 MCP 항목이 없지만, GitHub 트렌딩 리스트는 MCP 서버가 장악하고 있다

해커톤을 위해 RPG 마을 주민들에게 기억력을 부여했습니다

AI에 강한 직업을 원하시나요? 새로운 연구에 따르면 기술을 수용하는 기업에서 더 안전할 수 있습니다

workweave/router

선정 스코어카드에는 여전히 MCP 항목이 없지만, GitHub 트렌딩 리스트는 MCP 서버가 장악하고 있다

해커톤을 위해 RPG 마을 주민들에게 기억력을 부여했습니다

AI에 강한 직업을 원하시나요? 새로운 연구에 따르면 기술을 수용하는 기업에서 더 안전할 수 있습니다