arXiv논문2026. 06. 16. 13:15

TokenPilot: LLM 에이전트를 위한 캐시 효율적 컨텍스트 관리

요약

TokenPilot은 LLM 에이전트의 장기 세션에서 발생하는 컨텍스트 축적과 추론 비용 문제를 해결하기 위한 이중 입도 컨텍스트 관리 프레임워크입니다. 프롬프트 캐시 연속성을 유지하면서도 효율적인 데이터 압축과 제거를 통해 비용을 획기적으로 절감합니다.

핵심 포인트

프롬프트 접두사 안정화를 통한 캐시 무효화 방지
Ingestion-Aware Compaction을 통한 입력 노이즈 제거
Lifecycle-Aware Eviction으로 컨텍스트 유용성 모니터링
연속 모드 기준 최대 87%의 추론 비용 절감 달성
LightMem2 라이브러리에 통합되어 활용 가능

LLM 에이전트가 장기적인 세션(long-horizon sessions)에 배치됨에 따라, 컨텍스트(context)의 축적은 추론 비용을 상승시킵니다. 기존 방식들은 토큰 발자국(token footprints)을 최소화하기 위해 텍스트 프루닝(text pruning) 또는 동적 메모리 제거(dynamic memory eviction)를 활용하지만, 이들의 제약 없는 시퀀스 변이(sequence mutations)는 레이아웃을 변경하여 접두사 불일치(prefix mismatches)와 캐시 무효화(cache invalidation)를 유발합니다. 이는 텍스트 희소성(text sparsity)과 프롬프트 캐시 연속성(prompt cache continuity) 사이의 중대한 트레이드오프(trade-off)를 드러냅니다.

이를 해결하기 위해, 우리는 이중 입도(dual-granularity) 컨텍스트 관리 프레임워크인 TokenPilot을 제안합니다. 전역적으로는, Ingestion-Aware Compaction이 프레임워크 하네스(framework harness)로서 작동하여 프롬프트 접두사(prompt prefixes)를 안정화하고 입력 게이트(ingestion gate)에서 오픈 월드(open-world) 환경 노이즈를 제거합니다. 국소적으로는, Lifecycle-Aware Eviction이 컨텍스트 세그먼트(context segments)의 지속적인 잔여 유용성(residual utility)을 모니터링하며, 작업 관련성(task relevance)이 만료될 때만 콘텐츠 세그먼트를 오프로드(offload)하도록 보수적인 배치 턴(batch-turn) 스케줄을 강제합니다.

격리 모드(isolated mode)와 연속 모드(continuous mode) 모두에서 PinchBench 및 Claw-Eval을 통한 실험 결과, TokenPilot은 이전 시스템들과 비교하여 경쟁력 있는 성능을 유지하면서도 격리 모드에서는 비용을 61% 및 56% 절감하였고, 연속 모드에서는 61% 및 87%를 절감함을 입증했습니다. TokenPilot은 https://github.com/zjunlp/LightMem2 에 있는 LightMem2에 통합되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TokenPilot: LLM 에이전트를 위한 캐시 효율적 컨텍스트 관리

요약

핵심 포인트

댓글