자기 압축 언어 모델 에이전트 (Self-Compacting Language Model Agents)
요약
에이전트의 긴 추적 데이터로 인한 컨텍스트 초과 문제를 해결하기 위해 모델 스스로 압축 시점을 결정하는 SelfCompact 프레임워크를 제안합니다. 압축 도구와 경량 루브릭을 결합하여 미세 조정 없이도 효율적인 적응형 압축을 구현합니다.
핵심 포인트
- 모델이 스스로 압축 시점과 방법을 결정하는 SelfCompact 제안
- 압축 도구와 경량 루브릭의 결합으로 적응형 압축 실현
- 질문당 토큰 비용을 30-70% 절감하며 성능 유지 및 향상
- 수학 및 에이전트 탐색 벤치마크에서 기존 방식 대비 우수한 성능 입증
사고의 사슬 (Chain of Thought) 및 도구 호출 (Tool calls)로 구성된 긴 에이전트 추적 (Agent traces)은 후속 생성을 고착시키는 오래된 콘텐츠를 축적하며, 결국 컨텍스트 창 (Context window)의 크기를 초과하게 됩니다. 기존의 스캐폴드 (Scaffolds)는 토큰 임계값에서 트리거되는 고정 간격 압축 (Fixed-interval compaction)을 통해 이를 완화합니다. 이러한 트리거는 궤적 (Trajectory) 구조를 고려하지 않으므로, 유도 (Derivation) 중간이나 탐색 (Search) 중간에 부분적인 결과를 폐기할 위험이 있습니다. 우리는 모델 스스로가 언제 어떻게 압축할지를 결정할 수 있게 하는 스캐폴드인 SelfCompact를 제안합니다. 구체적으로, 이는 두 가지 추론 시점 (Inference-time) 요소를 결합합니다: (i) 축적된 컨텍스트를 요약하기 위해 모델이 호출하는 압축 도구 (Compaction tool), 그리고 (ii) 언제 실행할지(하위 작업이 해결되었거나 궤적이 수렴할 때)와 언제 억제할지(유도 중간이거나 막혔을 때)를 지정하는 경량 루브릭 (Lightweight rubric)입니다. 이 두 가지 모두가 필요합니다. 도구만 사용할 경우 오픈 웨이트 (Open-weight) 모델들 사이에서 사용 양상이 불균형하며, 종종 도움이 되지 않는 시점에 호출되거나 전혀 호출되지 않습니다. 루브릭만으로는 행동할 수 없습니다. 이들이 결합되면 미세 조정 (Fine-tuning)이나 외부 감독 없이도 효과적인 적응형 압축 (Adaptive compaction)을 이끌어냅니다. 우리는 6개의 벤치마크 (경쟁적인 수학 및 에이전트 탐색)와 7개의 모델에 대한 실증적 결과를 제시합니다. 우리의 결과는 SelfCompact가 훨씬 적은 토큰 비용으로 고정 간격 요약 (Fixed-interval summarization)과 대등하거나 이를 능가함을 보여주며, 질문당 비용을 30-70% 낮추면서 수학에서는 요약하지 않는 베이스라인 대비 최대 18.1포인트, 에이전트 탐색에서는 5-9포인트를 개선합니다. 우리의 결과는 메타 인지적 격차 (Meta-cognitive gap)를 드러냅니다: 프롬프트가 주어지지 않은 모델은 자신의 컨텍스트가 부패하고 있는 시점을 신뢰성 있게 판단할 수 없지만, 경량 루브릭은 이 격차를 메워주며, 압축 시점을 결정하는 것을 스캐폴드가 훈련 없이 제공할 수 있는 능력으로 재정의합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기