대규모 엔드투엔드 컨텍스트 압축 (End-to-End Context Compression at Scale)
요약
긴 컨텍스트 언어 모델의 KV 캐시 병목 현상을 해결하기 위해 인코더-디코더 구조를 활용한 새로운 압축 기술을 제안합니다. LCLMs는 높은 압축률에서도 모델 품질을 유지하며, 에이전트의 효율적인 컨텍스트 처리를 지원합니다.
핵심 포인트
- KV 캐시 병목 현상을 해결하는 인코더-디코더 압축 방식 제안
- LCLMs 제품군을 통해 정확도와 효율성의 파레토 프런티어 개선
- 1:4에서 1:16까지 다양한 압축률 지원 및 대규모 사전 훈련 수행
- Long-horizon 에이전트를 위한 효율적인 백본 역할 입증
긴 컨텍스트 언어 모델 (Long-context language model) 추론은 컨텍스트 길이(context length)에 따라 KV 캐시 (KV cache)가 증가함에 따라 메모리에 의해 병목 현상이 발생합니다. 최근의 KV 캐시 압축 기술들은 한계가 있습니다. 이들은 모델의 품질을 크게 저하시키거나, 단일 긴 프롬프트를 압축하는 데 상당한 시간과 연산량을 요구합니다. 또한, 많은 방법론이 입력이 대상 모델의 컨텍스트 창 (context window) 내에 들어올 것을 요구하며, 일반적으로 현대적인 프로덕션 추론 엔진 (production inference engines)과 호환되지 않습니다. 긴 토큰 시퀀스를 디코더 (decoder)가 소비하는 더 짧은 잠재 임베딩 (latent embeddings) 시퀀스로 매핑하는 인코더-디코더 압축기 (Encoder-decoder compressors)는 원칙적으로 매력적인 대안입니다. 그러나 기존 방식들은 정확도-효율성 프런티어 (accuracy-efficiency frontier) 측면에서 KV 캐시 압축과 경쟁할 만한 수준이 아닙니다. 본 연구에서는 인코더-디코더 압축을 재검토하고 이 격차를 해소합니다. 우리는 먼저 아키텍처 탐색 (architecture search)을 수행하여, 인코더-디코더 압축기를 설계하고 훈련하는 최선의 방법을 결정하기 위해 많은 변형 모델들을 처음부터 사전 훈련 (pre-training)합니다. 우리의 발견에 따라, 우리는 1:4, 1:8, 1:16의 압축률로 각각 350B 이상의 토큰을 사용하여 0.6B-인코더, 4B-디코더 모델 제품군을 지속적으로 사전 훈련합니다. 우리는 일반 작업 성능, 압축 속도, 그리고 피크 메모리 사용량 (peak memory usage) 전반에 걸쳐 파레토 프런티어 (Pareto frontier)를 개선하는 압축기 제품군인 잠재 컨텍스트 언어 모델 (Latent Context Language Models, LCLMs)을 소개합니다. 우리는 LCLMs가 긴 호흡의 에이전트 (long-horizon agents)를 위한 효율적인 백본 (backbones) 역할을 수행하여, 에이전트가 압축된 긴 컨텍스트를 빠르게 훑어보고 필요에 따라 관련 세그먼트를 적응적으로 확장할 수 있음을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기