더 적은 컨텍스트, 더 나은 에이전트: 장기적 도구 사용 LLM 에이전트를 위한 효율적인 컨텍스트 엔지니어링 (Context
요약
기업용 LLM 에이전트의 컨텍스트 오버플로와 비용 문제를 해결하기 위한 효율적인 컨텍스트 엔지니어링 기법을 연구합니다. 실험 결과, 전체 기록을 유지하는 대신 최근 도구 호출을 유지하고 자동 요약을 결합하는 방식이 성능과 효율성 면에서 가장 우수함을 입증했습니다.
핵심 포인트
- 전체 컨텍스트 유지보다 요약 및 가지치기가 효율적임
- 자동 요약 방식이 91.6%의 가장 높은 작업 완료율 달성
- 토큰 사용량 및 실행 시간을 획기적으로 절감 가능
- Claude Sonnet 4.5를 통한 교차 모델 검증 완료
기업 워크플로우를 위한 자율 에이전트로 배포된 대규모 언어 모델 (Large Language Models, LLMs)은 핵심적인 문제에 직면해 있습니다. 즉, 기업 시스템으로부터 오는 장황한 도구 응답이 컨텍스트 오버플로 (Context Overflow), 오래된 상태 오류 (Stale-state errors), 그리고 높은 추론 비용 (Inference cost)을 유발할 수 있다는 점입니다. 본 연구에서는 Model Context Protocol 도구를 사용하여 Microsoft Dynamics 365 Finance and Operations 내의 자동 비용 항목화 (Automated expense itemization) 과정에서 이 문제를 연구합니다. 우리는 50개의 태스크로 구성된 호텔 비용 벤치마크에서 네 가지 GPT-5 설정을 평가합니다: 사용자 모델 없음 (No user model), 전체 대화 기록 (Full conversation history), 마지막 5개의 도구 호출/응답 쌍으로 컨텍스트를 가지치기 (Context pruned to the last 5 tool call/response pairs), 그리고 자동 요약 (Automated summarization)을 통한 가지치기. 결과는 5회의 독립적인 실행에 대해 평균을 냈으며, 컨텍스트 엔지니어링 (Context-engineering) 비교를 위해 사용자 모델은 일정하게 유지했습니다. 사용자 모델이 없는 베이스라인은 완전한 항목화 (Complete itemization)를 8.0%만 달성했습니다. 전체 컨텍스트 유지 (Full-context retention)는 완료율을 71.0%로 향상시켰으나, 벤치마크당 1,480,996개의 토큰과 14.56시간을 소비했습니다. 마지막 5개의 도구 호출로 가지치기를 수행하면 토큰 사용량을 535,274개로, 실행 시간을 5.39시간으로 줄이면서 완료율을 79.0%로 높일 수 있습니다. 요약을 추가했을 때 가장 좋은 결과가 나타났습니다: 91.6%의 완전한 항목화와 99.64%의 평균 항목화 금액을 달성했으며, 토큰은 553,374개, 시간은 5.79시간이 소요되었습니다. 우리는 더 나아가 신뢰 구간 (Confidence intervals), 효과 크기 분석 (Effect-size analysis), 가지치기 및 요약 윈도우 (Summary windows)에 대한 민감도, 실패 분석 (Failure analysis), 세 가지 범주로 그룹화된 다섯 가지 비용 유형에 따른 결과, 그리고 Claude Sonnet 4.5를 통한 교차 모델 증거 (Cross-model evidence)를 보고합니다. 이러한 결과는 이러한 유형의 기업 도구 사용 워크플로우에서, 최근의 도구 상호작용을 선택적으로 유지하고 압축된 요약을 결합하는 것이 전체 기록 유지 (Full-history retention)와 비교했을 때 신뢰성과 효율성을 모두 향상시킬 수 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기