arXiv논문2026. 05. 27. 11:33

도구 스키마 압축을 통한 제한된 컨텍스트 예산 하에서의 에이전트형 RAG 구현

요약

에이전트형 RAG 시스템에서 다수의 도구 스키마가 컨텍스트 창을 과도하게 점유하는 문제를 해결하기 위한 도구 스키마 압축 연구를 소개합니다. TSCG 압축 기술을 통해 토큰을 44-50% 절감함으로써, 제한된 컨텍스트 환경에서도 모델의 RAG 성능을 효과적으로 복구할 수 있음을 입증했습니다.

핵심 포인트

도구 스키마가 RAG를 위한 컨텍스트 예산을 잠식하는 트레이드오프 문제 분석
TSCG 압축을 통해 스키마 토큰을 44-50% 절감하여 성능 유지
8K 토큰 환경에서 압축 시 정확도(EM)가 평균 20.5pp 상승
프런티어 스케일링 테스트에서 800개 이상의 도구 환경에서도 작동 확인

수십 개에서 수백 개의 도구 정의 (tool definitions)를 언어 모델에 장착한 에이전트형 RAG (Agentic RAG) 시스템은 심각한 자원 충돌에 직면합니다. 즉, 도구 스키마 (tool schemas)가 검색 증강 생성 (Retrieval-Augmented Generation, RAG)에 필요한 컨텍스트 창 (context window)을 동일하게 소비한다는 점입니다. 본 연구에서는 이러한 도구-컨텍스트 트레이드오프 (tool-context trade-off)에 대한 최초의 체계적인 연구를 제시하며, 1.5B~32B 규모의 로컬 모델 14개와 하나의 프런티어 API 모델을 대상으로 세 가지 컨텍스트 예산 (8K, 16K, 32K) 및 28개의 도구 정의 환경에서 6,566회의 통제된 API 호출을 통해 평가를 진행했습니다. TSCG 보수적 프로필 압축 (conservative-profile compression, 스키마 토큰 44-50% 절감)을 적용했을 때, 우리는 이진적 활성화 효과 (binary enablement effect)를 관찰했습니다. 8K 토큰 환경에서 JSON 스키마 (JSON-schema) 도구 정의는 컨텍스트 창을 완전히 초과하여 EM (Exact Match) 점수가 거의 0에 수렴(평균 2.6%)하는 반면, 압축된 스키마는 RAG 기능을 복구하여 8개 모델 전체에서 평균 +20.5 pp의 정확도 일치 (exact-match) 상승을 보였습니다 (완전한 활성화를 보인 6개 모델 사이에서는 +24.7 pp 상승). 두 형식 모두 수용 가능한 32K 환경에서는 테스트된 5개 모델 중 4개가 1 pp 이하의 차이 (delta <= 1 pp)를 보여, 이 효과가 순수하게 예산(budget)에 의해 결정됨을 확인했습니다. HotpotQA (50개의 멀티홉 질문)를 통한 외부 검증 결과, 동일한 초과 시나리오에서 +48 pp의 EM 상승을 보여주었습니다. 프런티어 스케일링 (Frontier scaling) 테스트 결과, JSON 스키마는 약 494개의 도구에서 초과가 발생하는 반면, 압축된 스키마는 800개 이상의 도구에서도 작동 상태를 유지함을 입증했습니다. 우리의 결과는 도구 스키마 압축이 제한된 컨텍스트 배포 환경에서의 에이전트형 RAG를 위한 필수적인 인프라 계층임을 확립합니다. 모든 코드, 데이터 및 체크포인트는 공개적으로 사용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

도구 스키마 압축을 통한 제한된 컨텍스트 예산 하에서의 에이전트형 RAG 구현

요약

핵심 포인트

댓글