Tool Attention Is All You Need: 동적 도구 게이팅 및 지연 스키마 로딩을 통한 MCP/Tools Tax 제거를 위한 확장 가능한 에이전트 워크플로우
요약
기존 LLM 에이전트 워크플로우에서 외부 도구 연결을 위해 사용되던 Model Context Protocol (MCP)은 매 턴마다 방대한 스키마 정보를 로드해야 하는 'Tools Tax' 문제를 안고 있습니다. Tool Attention은 이 문제를 해결하기 위해 어텐션(Attention) 패러다임을 도구 게이팅으로 확장한 미들웨어 레이어입니다. Intent Schema Overlap (ISO) 점수, 상태 인식 게이팅 함수, 2단계 지연 스키마 로딩을 결합하여, 필요한 도구의 전체 JSON 스키마를 최소화하고 컨텍스트 사용량을
핵심 포인트
- 기존 MCP 기반 에이전트 시스템은 매 턴마다 수만 토큰에 달하는 'Tools Tax'로 인해 운영 비용 및 추론 성능 저하 문제를 겪습니다.
- Tool Attention은 어텐션 메커니즘을 도구 게이팅으로 확장하여, 필요한 도구의 스키마를 효율적으로 관리하고 컨텍스트 오버헤드를 대폭 줄입니다.
- 시뮬레이션 결과, Tool Attention은 매 턴 사용되는 도구 토큰 수를 95.0% (47.3k $ ightarrow$ 2.4k)까지 직접 감소시키고, 유효 컨텍스트 활용률을 24%에서 91%로 끌어올렸습니다.
- 이 연구는 에이전트 시스템의 확장성 제약 요인이 단순히 컨텍스트 길이 자체가 아니라 '프로토콜 레벨의 효율성'에 있음을 시사합니다.
Model Context Protocol (MCP)은 대규모 언어 모델(LLM) 에이전트를 외부 도구에 연결하는 일반적인 인터페이스가 되었지만, 상태 비저장(stateless) 방식의 즉각적인 스키마 주입(eager schema injection)에 의존하면서 MCP Tax 또는 Tools Tax라는 숨겨진 턴당 오버헤드를 부과합니다. 실무자들은 일반적인 다중 서버 배포 환경에서 이 비용이 약 10k에서 60k 토큰 사이에 발생한다고 보고했습니다. 이러한 페이로드는 키-값 캐시(key-value cache)를 증가시키고, 컨텍스트 활용도가 약 70% 부근의 알려진 파손점(fracture points)에 접근함에 따라 추론 성능 저하와 관련되며, 토큰 예산을 반복적인 운영 비용으로 만듭니다. 본 논문에서는 'Attention Is All You Need' 패러다임을 토큰에 대한 셀프 어텐션(self-attention)에서 도구에 대한 게이티드 어텐션(gated attention)으로 일반화한 미들웨어 계층 메커니즘인 Tool Attention을 소개합니다. Tool Attention은 (i) 문장 임베딩(sentence embeddings)으로부터의 의도 스키마 중첩(Intent Schema Overlap, ISO) 점수, (ii) 전처리 조건 및 접근 범위를 강제하는 상태 인식 게이팅 함수(state-aware gating function), 그리고 (iii) 컨텍스트 내에 간결한 요약 풀(summary pool)을 유지하고 상위 k개 게이티드 도구에 대해서만 전체 JSON 스키마를 촉진하는 2단계 지연 스키마 로더(two-phase lazy schema loader)를 결합합니다. 우리는 시뮬레이션된 120개 도구, 6개 서버 벤치마크에서 평가했으며, 이 벤치마크의 서버당 토큰 수는 실제 MCP 배포에 대한 공개 감사 자료를 기반으로 보정되었습니다. 이 시뮬레이션에서 Tool Attention은 측정된 턴당 도구 토큰을 95.0% (47.3k $
ightarrow$ 2.4k) 직접적으로 줄이고, 유효 컨텍스트 활용도(토큰 비율 양)를 24%에서 91%로 높였습니다. 태스크 성공률, 지연 시간, 비용 및 추론 품질에 대한 엔드투엔드 수치는 측정된 토큰 수와 공개 배포 원격 측정 데이터(deployment telemetry)를 결합하여 도출한 예측치로 보고되며, 실제 LLM 에이전트에서 측정한 값은 아니므로 예상되는 값은 본문 전체에 명시적으로 표시했습니다. 종합적으로 볼 때, 이러한 결과는 간단한 가설을 뒷받침합니다: 확장 가능한 에이전트 시스템의 제약 조건은 원시 컨텍스트 길이(raw context length)가 아니라 프로토콜 수준의 효율성입니다. 이 연구 코드는 https://github.com/asadani/tool-attention에서 접근할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기