arXiv논문2026. 05. 28. 13:31

Tool Forge: 통제된 에이전트 실행을 위한 검증 기능 포함 툴체인

요약

LLM 에이전트의 안전하고 효율적인 도구 사용을 위한 툴체인인 Tool Forge를 제안합니다. 자연어 의도를 검증된 툴 산출물로 변환하고, 토큰 효율적인 라우팅을 통해 에이전트에 필요한 도구만 선별적으로 노출하는 시스템을 구축했습니다.

핵심 포인트

자연어 의도를 검증된 툴 캡슐로 변환하는 프레임워크 제안
전체 스키마 대신 의도 범위 내 도구만 노출하여 토큰 사용량 99.2% 절감
샌드박스 기반의 런타임 검증 및 거버넌스 제어 기능 포함
벤치마크 결과 높은 micro-F1 점수와 샌드박스 검증 성공률 달성

대규모 언어 모델 (LLM) 에이전트가 API 호출, 파일 조작, 워크플로(Workflow) 조립, 기업 시스템 내부에서의 동작과 같은 운영 업무를 수행할 것이라는 기대가 점점 커지고 있습니다. 그러나 이러한 실행이 의존하는 툴 계층 (Tool layer)은 여전히 수기로 작성된 통합 산출물이나 모델에 노출된 정적인 스키마 (Schema) 목록으로 취급되는 것이 일반적입니다. 본 논문은 자연어 형태의 능력 의도 (Capability intent)를 통제되고 샌드박스 (Sandbox)에서 검증되며 카탈로그화된 툴 산출물로 변환하고, 토큰 효율적인 라우팅 계층 (Routing layer)을 통해 이러한 산출물을 에이전트에 노출하는 검증 기능 포함 툴체인인 Tool Forge를 소개합니다. Tool Forge는 툴을 의도, 능력 계약 (Capability contract), 구현 (Implementation), 의존성 정책 (Dependency policy), 테스트, 문서, 런타임 검증 증거, 라이프사이클 상태, 자격 증명 바인딩 (Credential bindings), 그리고 라우팅 메타데이터를 포함하는 캡슐로 취급합니다. 또한, 모델 컨텍스트 (Model context)에 전체 카탈로그 스키마를 로드하는 대신 의도 범위 내의 툴 세션 (Intent-scoped tool sessions)을 노출하는 라우터 (Router)를 도입합니다. 우리는 시스템 아키텍처, 검증 파이프라인, MCP 대응 라우팅 모델, 거버넌스 제어 (Governance controls), 그리고 오픈 소스 구현을 통한 초기 재현 가능한 벤치마크를 설명합니다. 83개의 라우터 벤치마크 사례 전반에 걸쳐, Tool Forge Router는 단순한 전체 카탈로그 스키마 노출 방식 대비 추정 작업 흐름 툴 컨텍스트를 99.2% 감소시키면서 0.901의 총합 micro-F1 점수를 달성했습니다. 로컬 툴 작업에 대한 25개 사례의 엔드 투 엔드 (End-to-end) 생성 조사에서, Tool Forge는 25개 중 25개의 툴 번들 (Tool bundles)을 생성하였고, 결정론적 수락 검사 (Deterministic acceptance checks)에 대해 0.940의 micro-F1에 도달했으며, 25개 중 23개의 라이브 샌드박스 검증을 통과했습니다. 이러한 결과는 최첨단 (State-of-the-art) 주장으로서가 아닌 초기 시스템 벤치마크로서 제시됩니다. 본 논문은 적대적 라우팅 (Adversarial routing), 더 광범위한 API 그라운딩 (API grounding), 샌드박스 격리 (Sandbox isolation), 그리고 교차 시스템 평가 (Cross-system evaluation) 측면에서 남아있는 과제들을 식별합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Tool Forge: 통제된 에이전트 실행을 위한 검증 기능 포함 툴체인

요약

핵심 포인트

댓글