프롬프트 캐시를 깨뜨리지 않으면서 Claude Code의 풀 프라이스 토큰을 약 68% 압축하는 오픈소스 프록시를 제작했습니다

Claude Code의 공격적인 캐싱 (caching) 기능에도 불구하고, 캐시 할인 대상이 아닌 부분 때문에 청구 금액이 많이 발생한다는 점을 계속 발견했습니다. 즉, 컨텍스트의 모든 새로운 청크 (chunk) (도구 출력 (tool output), 최신 대화 내용 등)는 처음 전송될 때 풀 프라이스 (full price)로 청구되며, 모델의 응답 (replies) 또한 항상 그렇습니다. 프롬프트를 축소하기 위해 프롬프트를 재작성하는 도구들은 오히려 상황을 악화시키는 경향이 있는데, 접두사 (prefix)를 변경하면 캐시가 무효화되기 때문입니다.

그래서 저는 llmtrim을 만들었습니다. 이는 로컬 프록시 (local proxy)로 (단일 Rust 바이너리이며, 추가적인 모델 호출이 없음), 캐시된 접두사를 바이트 단위로 동일하게 유지하면서 요청 (requests)과 응답 (replies)을 압축합니다. cache_control 마커 아래에 있는 것은 아무것도 건드리지 않으므로, 약 90%의 캐시 할인이 유지됩니다. 실제 트래픽에서 요청당 약 18ms의 지연 시간이 추가되지만, 프록시를 떠나는 요청의 크기가 훨씬 작기 때문에 호출 속도가 느려지는 것이 아니라 오히려 더 빨라지는 경우가 많습니다.

실제 Claude Code 트래픽에서 측정한 결과:

풀 프라이스로 지불하는 입력 (input)의 68% 절감 (캐시되지 않은 부분; 혼합된 절감액은 캐시 적중률 (cache hit rate)에 따라 다르며, llmtrim 상태 창에서 실제 수치를 확인할 수 있음)
도구 출력 (tool output)이 93~98% 축소 (에이전트들이 반복해서 읽기 좋아하는 상세한 git log 및 테스트 러너 관련 내용)
벤치마크 스위트 (benchmark suite)에서 간결한 출력 형성을 통해 응답 (replies)이 74% 축소

제가 가장 신뢰하는 부분은 다음과 같습니다: 모든 압축 단계는 제공업체의 토크나이저 (tokenizer)로 다시 계산되며, 실제로 절약되지 않는 단계는 모두 되돌려집니다. 최악의 경우 아무 작업도 수행하지 않는 (no-op) 상태가 될 뿐, 세션 품질이 저하되지는 않습니다.

만약 이미 RTK, caveman, 또는 Headroom을 사용 중이라면 (README에서 전체 벤치마크 확인 가능):

RTK는 이와 함께 중첩하여 사용할 수 있습니다: RTK는 CLI 레이어에서 필터링을 수행하고, llmtrim은 그 위에서 API 레이어의 재전송되는 도구 스키마 (tool schemas)를 추가로 약 35% 더 절감합니다.
caveman은 완전히 대체할 수 있습니다: 자체 벤치마크에서 요청당 순 절감액은 동일하지만, 항상 켜져 있는 949토큰 규모의 스킬 대신 19토큰의 지침 (instruction)을 사용하며, 페르소나 (persona)에 의존하는 대신 품질 기반으로 작동합니다. 또한 llmtrim은 caveman이 건드릴 수 없는 입력 및 캐시 측면도 압축합니다.
Headroom은 ML을 사용하여 입력 측면만 다룹니다: Python 런타임 (runtime), 기가바이트 단위의 모델, 요청당 약 52ms의 지연 시간 추가 (해당 측의 텔레메트리 기준).

llmtrim은 전체 왕복 과정(input 및 output을 압축하면서 캐시를 온전하게 유지)을 다루며, 도구 출력(tool output) 측면에서도 Headroom의 약 92%와 비교했을 때 93~98% 수준으로 대등한 성능을 보여줍니다. 이는 약 18ms의 지연 시간을 가진 하나의 47MB 바이너리(binary)를 통해 결정론적(deterministically)으로 수행됩니다: 즉, 동일한 요청은 항상 동일한 결과를 반환합니다.

사용해 보기:
npm install -g @llmtrim/cli && llmtrim setup # 새로운 터미널을 열고 그곳에서 Claude Code를 시작하세요 - 프록시 환경 변수는 새로운 셸(shell)에만 적용됩니다. llmtrim status --watch
(README에 cargo/brew/docker 및 한 줄 설치 프로그램이 있습니다). 세션을 실행하고 절약되는 비용을 실시간으로 확인해 보세요. 좋지 않은 수치를 포함하여 여러분의 실제 데이터를 진심으로 확인해 보고 싶습니다. 아직 초기 단계라 다듬어지지 않은 부분이 있을 수 있으므로, 버그 보고를 적극 환영합니다. 어떤 질문이든 기꺼이 답변해 드리겠습니다.
GitHub: https://github.com/fkiene/llmtrim (AGPL-3.0)
제출자: /u/Lydia_Clements
[link] [comments]

Insights

프롬프트 캐시를 깨뜨리지 않으면서 Claude Code의 풀 프라이스 토큰을 약 68% 압축하는 오픈소스 프록시를 제작했습니다

요약

핵심 포인트

댓글

Daytona와 Deep Agents를 사용하여 스레드 범위의 AI 데이터 과학 샌드박스 구축하기

AI 인프라가 가상화 통합 사이클을 반복하고 있는 이유

이번 주 스테이블코인 수익률 리더보드에 새로운 선두가 등장했습니다.

디지털 대출 마켓플레이스를 구축하며 개발자가 배울 수 있는 점

Daytona와 Deep Agents를 사용하여 스레드 범위의 AI 데이터 과학 샌드박스 구축하기

AI 인프라가 가상화 통합 사이클을 반복하고 있는 이유

이번 주 스테이블코인 수익률 리더보드에 새로운 선두가 등장했습니다.

디지털 대출 마켓플레이스를 구축하며 개발자가 배울 수 있는 점