
모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법
요약
하드코딩된 MCP 도구 스키마 대신 탐색 기반(discovery-driven) 도구를 사용하여 에이전트의 토큰 낭비를 줄이는 방법을 소개합니다. NVIDIA API Catalog MCP 사례를 통해 실시간 모델 쿼리로 비용을 절감하고 인프라 변화에 유연하게 대응하는 아키텍처를 제안합니다.
핵심 포인트
- 하드코딩된 도구 정의로 인한 토큰 낭비(Token Bloat) 문제 해결
- 탐색 기반 아키텍처 도입 시 초기 단계에서 약 40%의 토큰 절감 가능
- 에이전트가 실시간 가용 모델을 동적으로 쿼리하여 인프라 변경에 대응
- NVIDIA API Catalog MCP를 활용한 실제 구현 사례 제시
하드코딩된 MCP 도구 스키마(tool schemas) 대신 nvidia_list_foundation_models와 같은 탐색 기반(discovery-driven) 도구로 전환하세요. 에이전트가 사용 가능한 모델을 동적으로 쿼리함으로써, 토큰 낭비(token bloat)를 줄이고 인프라 변경 사항에 실시간으로 대응할 수 있습니다.
핵심 요약 (Key Takeaways)
- 하드코딩된 MCP 도구 스키마(tool schemas) 대신 nvidia_list_foundation_models와 같은 탐색 기반(discovery-driven) 도구로 전환하세요.
- 에이전트가 사용 가능한 모델을 동적으로 쿼리함으로써, 토큰 낭비(token bloat)를 줄이고 인프라 변경 사항에 실시간으로 대응할 수 있습니다.
무엇이 바뀌었나 — 탐색 기반 MCP가 토큰 낭비를 40% 절감하다
최근 한 개발자는 사용자가 단 한 마디를 입력하기도 전에 MCP 서버가 5만 개 이상의 토큰을 소모하고 있다는 사실을 발견했습니다. 원인은 무엇이었을까요? 바로 하드코딩된 도구 정의(tool definitions)였습니다. 시스템 프롬프트(system prompt)에 가능한 모든 모델, 엔드포인트(endpoint), 설정을 나열해 놓은 것이 문제였습니다. 이는 단 하나의 번호만 필요할 때 전화번호부 전체를 미리 불러오는 것과 같습니다.
해결책은 '탐색 기반 아키텍처(discovery-driven architecture)'라고 불리는 패러다임의 전환입니다. Claude Code 에이전트에게 "당신은 Llama3, Nemotron 및 기타 47개 모델에 접근할 수 있습니다"라고 말하는 대신, "지금 실제로 사용 가능한 것은 무엇인가요?"라고 물을 수 있는 도구를 제공하는 것입니다.
이는 이론에 그치지 않습니다. NVIDIA API Catalog MCP는 nvidia_list_foundation_models를 통해 이 패턴을 구현합니다. 에이전트는 해당 도구를 한 번 호출하여 접근 가능한 경로의 실시간 덤프(dump)를 받고, 실제 가용성에 따라 이후의 호출을 조정합니다. 더 이상 오래된 스키마(schemas)나 토큰 낭비는 없습니다.
사용자에게 미치는 영향 — 일상적인 Claude Code 사용에 미치는 구체적 효과
1. 불필요한 비용 지불을 중단합니다
CLAUDE.md나 시스템 프롬프트(system prompt)에 50개의 모델 정의를 하드코딩하면, 해당 모델이 현재 지역이나 할당량 계층(quota tier)에서 활성화되어 있지 않더라도 모든 모델이 컨텍스트(context)를 차지하게 됩니다. 탐색 기반 MCP (discovery-driven MCP)를 사용하면 현재 사용 가능한 모델에 대해서만 비용을 지불하면 됩니다. 이는 시작 단계에서만 40%의 토큰 절감 효과를 가져옵니다.
2. 에이전트가 인프라 변경 사항에 적응합니다
제공업체는 모델 버전을 업데이트하고, 엔드포인트(endpoint)의 이름을 변경하며, 기능을 지속적으로 폐지(deprecate)합니다. 하드코딩된 프롬프트는 이러한 변화에 소리 없이 깨지게 됩니다. 탐색 기반 에이전트는 nvidia_list_foundation_models를 호출하여 즉각적으로 적응합니다. 더 이상 화요일 밤에 디버깅 세션을 가질 필요가 없습니다.
3. 할당량 관리가 선제적으로 이루어집니다
NVIDIA Catalog MCP에는 nvidia_check_token_quota가 포함되어 있습니다. 에이전트가 무거운 추론(inference) 작업을 시작하기 전에 스스로의 제약 사항을 확인하도록 지시할 수 있습니다. 할당량이 낮으면 에이전트는 더 작은 모델로 전환하거나, 작업을 일시 중지하고 사용자에게 알림을 보낼 수 있습니다. 거버넌스(Governance)가 오케스트레이터(orchestrator)에서 에이전트 자체로 이동합니다.
지금 바로 시도해 보세요 — 이를 활용하기 위한 명령어, 설정 및 프롬프트
1단계: NVIDIA API Catalog MCP 설치
claude mcp add nvidia-catalog --url https://vinkius.com/mcp/nvidia-api-catalog
또는 claude.json에 추가하세요:
{
"mcpServers": {
"nvidia-catalog": {
...
2단계: 탐색 우선 프롬프트로 CLAUDE.md 업데이트
기존 내용을 다음과 같이 교체하세요:
## Available Models

...
다음 내용으로 교체:
## Discovery-Driven Workflow
모든 추론을 실행하기 전에 `nvidia_list_foundation_models`를 호출하여 현재 사용 가능한 모델을 탐색하세요. 그런 다음 작업에 가장 적합한 모델을 선택하세요. 무거운 작업을 실행하기 전에는 `nvidia_check_token_quota`를 확인하세요.
3단계: Claude Code 세션에서 테스트
> /compact
> 사용 가능한 파운데이션 모델(foundation models) 목록을 나열하고, 이 PDF를 요약하는 데 가장 적합한 모델을 선택해 줘.
에이전트는 nvidia_list_foundation_models를 호출하여 활성화된 모델을 탐색하고, 최소한의 컨텍스트 오버헤드(context overhead)로 작업을 진행할 것입니다.
이것이 작동하는 이유 — 토큰 경제학 (Token Economics)
시스템 프롬프트(system prompt) 내의 모든 도구 정의(tool definition)는 토큰을 소비합니다. 만약 50개의 도구를 전체 JSON 스키마(JSON schemas)와 함께 정의한다면, 실제 작업을 시작하기도 전에 약 10,000~15,000개의 토큰이 소모됩니다. 여기에 KV 캐시(KV cache) 오버헤드를 고려하여 4를 곱하면, 요청 사이클당 50,000개 이상의 토큰을 낭비하게 됩니다.
탐색 기반(Discovery-driven) 도구는 이를 역전시킵니다. 도구 정의는 작고(하나의 함수 호출), 실제 데이터는 런타임 쿼리(runtime query)를 통해 가져옵니다. 사용한 만큼만 비용을 지불하게 됩니다.
더 큰 그림 — NVIDIA를 넘어
이 패턴은 모든 동적 인프라(dynamic infrastructure)에 적용됩니다. 클라우드 API, 데이터베이스 스키마(database schemas), 또는 내부 마이크로서비스(internal microservices)와 상호작용하는 에이전트(agents)를 구축하고 있다면, 하드코딩(hardcoding)은 리스크가 됩니다. 에이전트에게 탐색 도구(discovery tool)를 부여하고, 런타임에 스스로 환경을 파악하도록 하세요.
MCP 생태계가 13,000개 이상의 서버를 넘어섬에 따라(최근 보도 기준), 정적(static) MCP와 동적(dynamic) MCP의 구분은 프로덕션급(production-grade) 에이전트를 정의하는 기준이 될 것입니다. 정적 MCP는 데모용입니다. 탐색 기반 MCP는 실제 제품 출시(shipping)를 위한 것입니다.
출처: dev.to
_[gn_mcp_protocol을 통해 6월 30일 업데이트]_
한편, X(구 Twitter)는 2025년 4월 10일 자체적인 공식 MCP 서버를 출시하여, AI 에이전트가 모델 컨텍스트 프로토콜(Model Context Protocol)을 통해 게시물을 검색하고, 사용자 프로필을 조회하며, 트렌딩 주제를 직접 가져올 수 있도록 했습니다 [TechCrunch 보도 기준]. 이러한 움직임은 소셜 플랫폼들이 이제 MCP 네이티브 인터페이스를 구축하고 있음을 시사하며, 탐색 기반 가설을 더욱 강화합니다. 즉, 더 많은 서비스가 동적 엔드포인트(dynamic endpoints)를 노출할수록, 하드코딩된 모델 리스트는 더욱 낭비적인 것이 됩니다. 이제 개발자들은 X의 공개 데이터를 정적 스키마가 아닌, 탐색 가능한 또 다른 리소스로 취급할 수 있습니다.
원문은 gentic.news에 처음 게시되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기