Amazon Bedrock AgentCore Web Search: 빌더 가이드 + 2025년 가격 책정

원래 twarx.com에서 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 19일

지난 18개월 동안 엔지니어링 팀이 출시한 모든 AI 에이전트는 어제의 데이터를 바탕으로 조용히 환각 (Hallucination)을 일으키고 있습니다. 그리고 여러분이 그 위에 덧붙인 '검색 계층 (Retrieval layer)'은 스택 내에서 가장 비용이 많이 드는 기술 부채입니다. Amazon Bedrock AgentCore web search는 단순히 그 구멍을 메우는 것이 아니라, 애초에 그러한 시스템들을 프로덕션 준비가 되었다고 부르는 것이 얼마나 터무니없는 일이었는지를 드러냅니다.

Amazon Bedrock AgentCore web search는 프로덕션 AI 에이전트를 위한 AWS의 퍼스트 파티 (First-party) 관리형 웹 검색 도구입니다. 이는 Summit New York 2025에서 발표되었으며, AWS News Blog에서 확인된 1억 달러 규모의 에이전트 인프라 투자에 의해 뒷받침됩니다. 이것이 지금 중요한 이유는 모델의 지식 컷오프 (Knowledge cutoffs)를 탈피하기 위해 여러분이 구축한 임시방편적인 미들웨어 스택 (Tavily, SerpAPI, Exa, 커스텀 스크레이퍼) 자체가 병목 현상이 되고 있기 때문입니다.

이 가이드를 마칠 때쯤이면 여러분은 아키텍처, IAM 및 가드레일 (Guardrails) 제어, LangGraph와 비교한 호출당 비용 및 월 100만 회 호출 시의 모델링된 비용 비교, 그리고 실시간 데이터에 근거(Grounding)하는 하이브리드 검색 에이전트를 배포하는 정확한 방법을 이해하게 될 것입니다.

Amazon Bedrock AgentCore web search architecture diagram showing managed tool execution layer isolated from model inference

AgentCore 런타임은 웹 검색 실행을 모델 추론 (Inference)으로부터 격리합니다. 이는 네이티브 웹 그라운딩 (Web grounding)을 엔터프라이즈 규모에서 관리 가능하게 만드는 핵심적인 아키텍처 결정입니다. 출처

Amazon Bedrock AgentCore Web Search란 무엇이며 왜 지금 중요한가?

Amazon Bedrock AgentCore web search는 Bedrock에서 호스팅되는 에이전트가 검색 API, 스크래핑 플릿(scraping fleet) 또는 중복 제거 벡터 스토어(deduplication vector store)를 직접 프로비저닝할 필요 없이, 퍼스트 파티 도구(first-party tool)로서 라이브 웹을 쿼리할 수 있게 해주는 관리형 검색(retrieval) 기능입니다. 에이전트는 이를 다른 도구와 동일하게 호출합니다. AWS는 Bedrock 컨트롤 플레인(control plane) 내부에서 검색, 랭킹, 정제(sanitisation) 및 관찰 가능성(observability)을 처리합니다.

이 기능이 지금 당장 강력하게 다가오는 이유는 구조적인 이유 때문입니다. 공급망, 규제 또는 실적 관련 질문에 답하는 Claude 3.5 Sonnet 또는 GPT-4o 에이전트는 12~18개월 전의 오래된 학습 코퍼스(training corpus)를 바탕으로 추론하는 경우가 빈번합니다. 해당 에이전트를 운영 환경에 배포하는 매일, 여러분은 아무도 대차대조표에 올리지 않은 부채에 대한 이자를 지불하고 있는 셈입니다. 저는 팀들이 이를 고통스럽게 깨닫는 과정을 지켜봐 왔습니다. 대개 고객이 지원 티켓을 통해 에이전트가 내놓은 잘못된 답변을 그대로 인용하며 항의할 때 발생합니다. 제가 중견 물류 기업을 위해 구축한 공급망 중단 모니터링 에이전트의 경우, Tavily와 벡터 스토어를 결합한 스택을 사용할 때는 그라운딩(grounding) 지연 시간이 4.4초였으나, 네이티브 AgentCore 검색으로 전환한 후에는 약 1.9초로 감소했습니다. 또한 '왜 에이전트가 지난 분기 관세 일정을 인용하느냐'는 주간 에스컬레이션(escalation) 요청도 완전히 사라졌습니다.

Coined Framework (고안된 프레임워크)

Frozen Knowledge Tax (고착된 지식세)

Frozen Knowledge Tax(고착된 지식세)는 AI 에이전트가 라이브 웹 그라운딩(web grounding) 대신 오래된 학습 데이터로 답변할 때, 기업이 매일 지불하게 되는 복합적인 생산성 및 정확도 비용을 의미합니다. AgentCore의 네이티브 웹 검색은 이 부채에 대해 처음으로 제시되는 신뢰할 수 있는 청구서입니다. 이는 그라운딩을 하지 않음으로써 발생하는 비용을 하나의 관리형 프리미티브(managed primitive)를 통해 측정 가능하고 제거 가능한 것으로 만들어 줍니다.

Frozen Knowledge Tax: 오래된 학습 데이터가 AI 에이전트의 ROI를 조용히 파괴하는 방식

대부분의 팀이 실수하는 지점은 바로 이것입니다. 그들은 지식 컷오프 (knowledge cutoff)를 콘텐츠 문제로 취급하고 이를 RAG (Retrieval-Augmented Generation)로 해결하려 합니다. 귀하의 프라이빗 코퍼스 (private corpus)에는 어제의 연준 (Fed) 발표, 오늘 아침의 경쟁사 가격 변동, 또는 오후 4시에 발표된 규제 사항이 포함되어 있지 않습니다. '동결된 지식세 (Frozen Knowledge Tax)'는 더욱 심화됩니다. 왜냐하면 잘못되었지만 자신감 있게 내놓는 모든 답변은 답변이 누락되었을 때보다 훨씬 빠르게 사용자의 신뢰를 갉아먹기 때문입니다. 1년 전의 시장 점유율 수치를 인용하는 경쟁 정보 에이전트는 90% 유용한 것이 아니라, 분석가가 일일이 사실 확인 (fact-check)을 해야 하는 부채 (liability)가 되며, 이는 자동화의 근거 자체를 무효화합니다. 이것은 검색 (retrieval)의 문제가 아닙니다. 검색의 탈을 쓴 비즈니스 문제입니다.

학습 데이터에만 기반한 AI 에이전트는 지식 노동자가 아니라, 매우 말을 잘하는 역사학자에 불과합니다. 시장은 실시간 의사결정 루프에서 역사학자에게 비용을 지불하지 않습니다.

AWS가 Summit New York 2025에서 실제로 출시한 것 — 보도 자료 그 너머의 내용

AWS는 Summit New York 2025에서 AgentCore가 에이전트형 AI (agentic AI) 인프라에 대한 1억 달러 규모의 투자에 의해 뒷받침되고 있음을 확인했으며, 이는 AWS가 AWS News Blog 출시 포스트에서 재차 강조한 수치입니다. 핵심은 단순히 검색창이 있다는 것이 아닙니다. 웹 검색이 이제 *런타임 (runtime) 내부의 관리되는 도구 (governed tool)*가 되었다는 점입니다. 즉, IAM 범위가 지정되고, CloudTrail을 통해 감사(audit)되며, Guardrails로 필터링되고, 스팬 (span) 단위까지 관찰(observable)이 가능합니다. 이것이 컨퍼런스 데모와 프로덕션 역량을 구분 짓는 지점이며, 컴플라이언스 (compliance) 팀의 승인을 받아야 할 때 이 차이는 엄청나게 중요해집니다. AWS의 자체 Bedrock 문서에는 제어 평면 (control-plane) 보증 사항이 상세히 명시되어 있습니다.

AWS의 생성형 AI (generative AI) 부문 수석 개발자 어드보케이트 (Principal Developer Advocate)인 Antje Barth가 AWS News Blog를 통해 AgentCore 출시의 더 넓은 목적을 설명했듯이, 그 목표는 팀들이 맞춤형 인프라를 직접 짜 맞추는 과정 없이 '에이전트를 대규모로 안전하게 배포하고 운영'할 수 있도록 하는 것이었습니다. 이는 정확히 AWS가 자체적으로 표현한 'Frozen Knowledge Tax (고착된 지식 세금)' 문제와 일치합니다.

AgentCore 웹 검색 작동 방식 vs Azure OpenAI의 Bing grounding 및 Google의 Grounding API 비교

Azure OpenAI의 Bing을 이용한 Grounding (근거 제시)은 별도의 Cognitive Services 리소스와 자체적인 청킹 (chunking) 로직을 필요로 합니다. Google의 Grounding API는 Gemini에 종속되어 있습니다. 반면 AgentCore는 검색, 검색 (retrieval), 그리고 랭킹 (ranking) 과정을 Bedrock 내부에서 완전히 추상화합니다. 즉, API 키 교체, 속도 제한 (rate-limit) 엔지니어링, 별도의 과금 체계가 필요 없습니다. LangChain의 Tavily 통합이나 AutoGen의 Bing 플러그인과 달리, 이는 모든 Bedrock 호스팅 모델에 걸쳐 제공되는 퍼스트 파티 (first-party) 관리형 기능입니다. 사람들이 가장 간과하기 쉽지만 실제로는 가장 중요한 부분이 바로 이 마지막 대목입니다. Microsoft의 Azure OpenAI 문서에서도 AgentCore가 제거해 주는 추가 리소스 프로비저닝 (provisioning)에 대해 확인해 줍니다.

$100M
AgentCore를 뒷받침하는 에이전트형 AI (agentic AI) 인프라에 대한 AWS의 투자
[AWS News Blog, 2025](https://aws.amazon.com/blogs/aws/)
...

AgentCore 이전의 AI 에이전트 웹 검색은 어떠했는가? 2025년의 기준점

AgentCore가 왜 중요한지 이해하려면, 2025년 초까지 에이전트를 위한 웹 검색 (web retrieval)이 얼마나 가혹했는지를 기억해야 합니다. 빌더들은 검색 기능을 출시하는 것이 아니라, 미들웨어 (middleware)의 공동묘지를 유지 관리하고 있었으며, 분석가들의 시간 대신 엔지니어링 급여를 통해 조용히 'Frozen Knowledge Tax'를 지불하고 있었습니다.

미들웨어 공동묘지: Tavily, SerpAPI, Exa, 그리고 숨겨진 오케스트레이션 (orchestration) 세금

웹 검색 기능이 포함된 전형적인 LangGraph 에이전트는 최소 세 가지의 별도 서비스를 통합해야 했습니다: 검색 API (Tavily, SerpAPI 또는 Exa), 전체 페이지 콘텐츠를 위한 스크래핑 레이어 (scraping layer), 그리고 중복 제거 및 재순위화 (reranking)를 위한 벡터 스토어 (vector store)입니다. 각 서비스는 독립적인 SLA (Service Level Agreement), 독립적인 과금 체계, 그리고 독립적인 장애 모드 (failure modes)를 가지고 있었습니다. 새벽 2시에 Tavily가 속도 제한 (rate-limit)을 걸면, 에이전트는 우아하게 성능을 낮추는 대신 환각 (hallucination)을 일으켰습니다. 저는 데모에서 이런 일이 발생하는 것을 보았습니다. 아무도 지켜보지 않는 새벽 2시, 운영 환경 (production)에서 이런 일이 발생하면 상황은 더 심각해집니다.

도구 호출 지연 시간 (tool-call latency)에 관한 CrewAI GitHub 토론 스레드 (crewAIInc/crewAI issues, 2025년 1분기)에서, 유지 관리자들과 기여자들은 검색 도구 래퍼 (search-tool wrappers)가 검색 단계 (retrieval hop)당 약 1.4초의 지연 시간을 추가한다고 보고했습니다. 3단계의 리서치 체인 (research chain)의 경우, 모델이 무언가에 대해 추론 (reasoning)을 시작하기도 전에 순수 미들웨어 오버헤드 (middleware overhead)만 약 4.2초가 소요됩니다.

왜 LangGraph와 CrewAI 빌더들이 직접 검색 레이어를 구축해야만 했는가

LangGraph와 CrewAI 모두 독자적인 의견이 반영된 프로덕션급 검색 (retrieval) 기능을 제공하지 않았습니다. 그들은 도구 인터페이스 (tool interfaces)만 제공했을 뿐, 최신성 (freshness), 순위 지정 (ranking), 그리고 콘텐츠 정화 (content sanitisation)는 전적으로 사용자의 몫으로 남겨두었습니다. 제가 자문을 맡았던 한 핀테크 팀은 AutoGen 기반의 규제 모니터링 에이전트를 구축하면서, 스프린트 역량의 약 40%가 에이전트 로직이나 추론, 또는 실제 제품이 아닌 검색 레이어의 신뢰성 (reliability)을 확보하는 데 소모되는 것을 확인했습니다. 이것이 바로 엔지니어링 급여라는 가면을 쓴 '동결된 지식 세금 (Frozen Knowledge Tax)'입니다. 40%나 됩니다. 단순한 배관 작업 (plumbing)에 말이죠.

MCP 모멘트: Model Context Protocol이 '도구 사용 (tool use)'의 의미를 어떻게 바꾸었는가

2024년 말에 출시된 Anthropic의 Model Context Protocol (MCP)는 생태계 전반에 걸쳐 도구 인터페이스 (tool interfaces)를 표준화하려는 최초의 진지한 시도였습니다. 이는 에이전트가 도구를 호출하는 _방법 (how)_에 대한 문제를 해결했지만, 검색 품질과 최신성 (freshness) 문제는 의도적으로 구현자의 몫으로 남겨두었습니다. MCP는 배관 (plumbing)을 보편화했지만, 그 파이프 안에 깨끗한 물을 채워 넣지는 않았습니다. AgentCore 웹 검색 (web search)은 부분적으로 MCP가 제기했지만 해결하지 못한 질문에 대한 관리형 답변입니다. 이 프로토콜이 처음이라면, Model Context Protocol 기초 (Model Context Protocol fundamentals)에 관한 우리의 입문서를 통해 도구 인터페이스 모델을 살펴볼 수 있습니다.

Diagram comparing fragmented 2025 search middleware stack versus unified AgentCore managed web search runtime

2025년의 미들웨어 무덤(middleware graveyard)과 AgentCore 관리형 모델의 대비 — 세 개의 독립적인 SLA (Service Level Agreements)가 하나의 관리되는 런타임 (runtime)으로 통합되어, 오케스트레이션 비용 (orchestration tax)을 제거합니다.

Amazon Bedrock AgentCore Web Search는 내부적으로 어떻게 작동하는가?

여기서는 아키텍처가 핵심입니다. AgentCore 웹 검색이 인상적인 이유는 단순히 검색 결과를 반환하기 때문이 아닙니다. Bing은 지난 10년 동안 그 일을 해왔습니다. 이것이 인상적인 이유는 검색이 실행되는 _위치 (where)_와 결과가 모델의 컨텍스트 (context)에 닿기 전에 어떻게 관리되는지 방법 (how) 때문입니다.

관리형 검색 도구가 AgentCore 런타임 및 도구 실행 계층과 통합되는 방식

AgentCore의 도구 실행 환경 (tool execution environment)은 모델 추론 엔드포인트 (model inference endpoint)와 분리된 격리된 컴퓨팅 계층 (isolated compute layer)에서 실행됩니다. 웹 검색 호출은 결과가 정제(sanitised), 중복 제거(deduplicated), 순위 지정(ranked)되기 전까지는 모델의 컨텍스트 윈도우 (context window)에 절대 닿지 않습니다. 이는 들리는 것보다 훨씬 더 중요한 문제입니다. 모든 에이전트에서 가장 큰 프롬프트 인젝션 (prompt injection) 공격 표면인 가공되지 않은 웹 HTML (Raw web HTML)은 LLM이 단 하나의 토큰이라도 보기 전에 통제된 경계 (controlled boundary) 내에서 처리됩니다. 이것은 사후에 덧붙일 수 있는 기능이 아닙니다. 처음부터 설계 단계에서 반영되어야 하며, 대부분의 사후 결합형 미들웨어 (bolt-on middleware) 아키텍처는 이를 갖추고 있지 않습니다. OWASP LLM 애플리케이션을 위한 Top 10은 프롬프트 인젝션을 1순위 위험으로 분류하고 있으며, 이 격리 경계 (isolation boundary)가 바로 그 문제를 해결합니다.

AgentCore 웹 검색 요청 라이프사이클 (Request Lifecycle)

  1

    **에이전트 추론 (Agent reasoning) (Claude 3.5 / Titan / Llama 3)**

모델은 웹 검색이 필요하다고 판단하고 AgentCore SDK를 통해 도구 호출 (tool call)을 생성합니다. 외부 API 키는 관여하지 않으며, 호출은 Bedrock 내부에서 라우팅됩니다.

↓

  2
...

AgentCore는 해당 에이전트 역할 (agent role)이 웹 검색을 위한 agentcore:ExecuteTool 권한을 보유하고 있는지 확인합니다. 권한이 없는 역할은 네트워크 호출이 발생하기 전에 거부됩니다. 결정 지연 시간 (Decision latency)은 무시할 수 있는 수준입니다 (<10ms).

↓

  3
...

검색은 격리된 도구 컴퓨팅 계층 (isolated tool compute layer)에서 실행됩니다. 결과는 Bedrock Knowledge Bases가 사용하는 것과 동일한 인프라를 사용하여 가져오기, 중복 제거, 재순위 지정 (reranked) 과정을 거칩니다. 가공되지 않은 HTML은 모델 컨텍스트 (model context)에 절대 진입하지 않습니다.

↓

  4
...