Netflix 엔지니어가 AI 토큰을 최대 95% 절감하는 OSS를 공개했다.

Netflix의 엔지니어가 AI의 토큰 (Token)을 최대 95% 컷트하는 OSS (Open Source Software)를 공개했다.

게다가 정밀도는 떨어지지 않는다. 원래대로 되돌릴 수 있는 「가역 압축 (Lossless Compression)」이기 때문이다.

Claude나 Cursor를 사용하고 있으면 은근히 부담스러운 것이 토큰 소비.
긴 로그, RAG (Retrieval-Augmented Generation)로 취득한 텍스트, 여러 파일의 읽기.
AI에게 전달할 때마다 토큰이 녹아내린다.

그 문제를 AI에게 전달하기 전에 해결하는 것이 「Headroom」.

AI 에이전트가 읽어들이는 모든 데이터 (도구 출력, 로그, 취득 텍스트, 파일 내용)를 AI에게 도달하기 전에 정리한다. 같은 의미를 유지하면서 훨씬 적은 토큰으로 전달할 수 있게 된다.

실측값이 이것.

→ 토큰 절감: 60~95%
→ 압축 알고리즘: 6종류 (코드 전용, 로그 전용, 범용 등 용도별)
→ 정밀도: 가역 압축이므로 원래대로 되돌릴 수 있음 (정보의 결손 없음)
→ 대응 도구: Claude Code, Codex, Cursor, Aider, Copilot CLI

지금까지 토큰을 줄이기 위해 요약하거나 프롬프트 (Prompt)를 깎아냈던 방식을,
Headroom이 자동으로 압축해 주는 형태로 바꿀 수 있다.

특히 장기 에이전트 실행이나, 거대한 코드베이스 (Codebase)를 다루는 작업에서는 체감이 달라질 것이다.

도입도 심플하다.

라이브러리 (Library), 프록시 (Proxy), MCP 서버 (MCP Server) 3가지 방식으로 도입할 수 있다.

・100% 로컬 동작 (데이터를 외부로 내보내지 않음)
・Apache 2.0 라이선스 (상업적 이용 가능)
・클라우드 의존성 없음

GitHub에서 34,000 스타 (Star)를 넘긴 것도 납득이 간다.

자세한 내용은 아래에 둔다.

Insights

Netflix 엔지니어가 AI 토큰을 최대 95% 절감하는 OSS를 공개했다.

요약

핵심 포인트

댓글

팁: Windows 검색(Win+Q)을 사용하여 기본 모델과 함께 llama.cpp Router Mode를 실행하는 방법

클래식 벡터 RAG vs Google의 새로운 OKF 포맷 vs 두 방식의 결합 벤치마크 — 동일 코퍼스, 동일 7개 질문, 모두 로컬 환경

단일 RTX 3090에서 실행되는 Döner Bench DeepSeek-V4-Flash IQ2_XS

[릴리스] SupraBrain-50M-v0.1

팁: Windows 검색(Win+Q)을 사용하여 기본 모델과 함께 llama.cpp Router Mode를 실행하는 방법

클래식 벡터 RAG vs Google의 새로운 OKF 포맷 vs 두 방식의 결합 벤치마크 — 동일 코퍼스, 동일 7개 질문, 모두 로컬 환경

단일 RTX 3090에서 실행되는 Döner Bench DeepSeek-V4-Flash IQ2_XS

[릴리스] SupraBrain-50M-v0.1