Headroom: LLM 컨텍스트를 압축해주는 넷플릭스 엔지니어의 오픈소스 도구

Headroom: LLM 컨텍스트를 압축해주는 넷플릭스 엔지니어의 오픈소스 도구
https://t.co/rkchqPxCHZ

넷플릭스에서 ML 인프라와 대규모 분산 시스템을 담당하는 시니어 엔지니어 테자스 초프라가 만든 Headroom 프로젝트!

LLM 에이전트를 실제로 쓰다 보면 토큰 비용이 생각보다 빠르게 불어나는 경우가 많죠.

그도 코드 디버깅, 데이터베이스 조회, 로그 분석 등을 하다 보면 287달러짜리 청구서가 날아온 일을 겪고 이걸 만들었어요.

문제는 사람이 작성한 프롬프트가 아니라, 시스템이 자동으로 붙이는 방대한 메타데이터와 중복된 JSON, 반복되는 템플릿 때문이었어요.

Headroom은 이런 데이터를 AI 모델에 전달하기 전에 프록시 형태로 압축해주는 도구예요.

Tool outputs, logs, RAG chunks까지 모두 대상으로 삼아서, 서버 로그는 최대 90%, MCP 도구 출력 JSON은 약 70%까지 불필요한 부분을 줄일 수 있다고 해요.

필요하면 원본을 다시 불러올 수 있는 Reversible Compression.. 가역 압축이라 정확성도 어느 정도 지킬 수 있구요.

초프라가 오픈소스 서밋에서 얘기하기를 지금까지 사용자들이 70만 달러(약 10억 원!)와 2000억개 토큰을 절약했다고 해요.

넷플릭스에서 실제 대규모 시스템을 다루는 사람이 만든 만큼, 실무에서 겪은 불편함을 직접 해결하려는 접근이 느껴진다고나 할까요..

토큰을 줄이는 게 단순한 비용 절감뿐 아니라, 컨텍스트가 너무 길어질 때 생기는 Context Rot 현상도 완화할 수 있다는 점!

LLM을 일상적으로 쓰는 사람들에게 실질적인 도움이 될 도구..

Insights