본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 21:53

LLM 에이전트 효율 극대화: Tool Attention 아키텍처 소개

요약

기존 LLM 에이전트 워크플로우에서 외부 도구 연결을 위해 사용되던 Model Context Protocol (MCP)은 매 턴마다 방대한 스키마 정보를 로드해야 하는 'Tools Tax' 문제를 안고 있습니다. Tool Attention은 이 문제를 해결하기 위해 어텐션(Attention) 패러다임을 도구 게이팅으로 확장한 미들웨어 레이어입니다. Intent Schema Overlap (ISO) 점수, 상태 인식 게이팅 함수, 2단계 지연 스키마 로딩을 결합하여, 필요한 도구의 전체 JSON 스키마를 최소화하고 컨텍스트 사용량을

핵심 포인트

  • 기존 MCP 기반 에이전트 시스템은 매 턴마다 수만 토큰에 달하는 'Tools Tax'로 인해 운영 비용 및 추론 성능 저하 문제를 겪습니다.
  • Tool Attention은 어텐션 메커니즘을 도구 게이팅으로 확장하여, 필요한 도구의 스키마를 효율적으로 관리하고 컨텍스트 오버헤드를 대폭 줄입니다.
  • 시뮬레이션 결과, Tool Attention은 매 턴 사용되는 도구 토큰 수를 95.0% (47.3k $ ightarrow$ 2.4k)까지 직접 감소시키고, 유효 컨텍스트 활용률을 24%에서 91%로 끌어올렸습니다.
  • 이 연구는 에이전트 시스템의 확장성 제약 요인이 단순히 컨텍스트 길이 자체가 아니라 '프로토콜 레벨의 효율성'에 있음을 시사합니다.

The Model Context Protocol (MCP) has become a common interface for connecting large language model (LLM) agents to external tools, but its reliance on stateless, eager schema injection imposes a hidden per-turn overhead the MCP Tax or Tools Tax that practitioner reports place between roughly 10k and 60k tokens in typical multi-server deployments. This payload inflates the key-value cache, is associated with reasoning degradation as context utilization approaches published fracture points around 70%, and turns token budgets into a recurring operational cost. We introduce Tool Attention, a middleware-layer mechanism that generalizes the "Attention Is All You Need" paradigm from self-attention over tokens to gated attention over tools. Tool Attention combines (i) an Intent Schema Overlap (ISO) score from sentence embeddings, (ii) a state-aware gating function enforcing preconditions and access scopes, and (iii) a two-phase lazy schema loader that keeps a compact summary pool in context and promotes full JSON schemas only for top-k gated tools. We evaluate on a simulated 120-tool, six-server benchmark whose per-server token counts are calibrated to public audits of real MCP deployments. In this simulation, Tool Attention directly reduces measured per-turn tool tokens by 95.0% (47.3k -> 2.4k) and raises effective context utilization (a token-ratio quantity) from 24% to 91%. End-to-end figures for task success, latency, cost, and reasoning quality are reported as projections derived from the measured token counts combined with published deployment telemetry; they are not measured on live LLM agents, and we mark projected values explicitly throughout. Taken together, the results support a simple thesis: protocol-level efficiency, not raw context length, is a binding constraint on scalable gentic systems. The code for this work is accessible at https://github.com/asadani/tool-attention

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0