Amazon Bedrock AgentCore Web Search: AI 환각(Hallucination)을 제거하기 위한 프로덕션 가이드

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 19일

당신의 AI 에이전트가 환각 (Hallucination)을 일으키는 이유는 모델이 나빠서가 아닙니다. 어제의 세상에 대해 학습된 시스템에게 오늘의 질문에 답하도록 강요하고 있기 때문입니다. Amazon Bedrock AgentCore web search는 인프라 수준에서 **시간적 맹목성 세금 (Temporal Blindness Tax)**을 제거하는 최초의 AWS 네이티브 메커니즘이며, 이를 무시하는 빌더들은 사용자들이 4분기(Q4)가 오기도 전에 포기할 에이전트를 조용히 출시하고 있는 셈입니다.

AgentCore Web Search는 Amazon Bedrock AgentCore 런타임(runtime) 내의 관리형 도구로, 에이전트가 실시간 웹 컨텍스트 (web context)에 근거하여 답변을 생성할 수 있게 해줍니다. Tavily 키도, Serper 속도 제한 (rate-limit) 로직도, 취약한 스크래핑 (scraping)도 필요하지 않습니다. 이것이 지금 중요한 이유는 AWS가 Summit New York 2025에서 1억 달러 규모의 에이전틱 AI (agentic-AI) 투자와 함께 이를 출시했기 때문입니다.

이 가이드를 마칠 때쯤이면 여러분은 하이브리드 RAG 라우터 (hybrid RAG router), 비용 모델, 그리고 감사를 견뎌낼 수 있는 IAM 경계 (IAM boundary)를 갖춘 프로덕션급 AgentCore Web Search 에이전트를 프로비저닝(provision), 보안 설정 및 출시할 수 있게 될 것입니다.

Amazon Bedrock AgentCore web search architecture diagram connecting an LLM agent to live web grounding through the MCP runtime, CloudTrail logging, and a hybrid RAG router

Amazon Bedrock AgentCore web search 아키텍처: 관리형 런타임 (managed runtime)이 모델과 실시간 웹 사이에 위치하여, 시간에 민감한 쿼리는 웹 검색으로, 독점적인 쿼리는 벡터 스토어 (vector store)로 라우팅하며, 모든 도구 호출 (tool call)을 CloudTrail에 기록합니다. 이를 통해 애플리케이션 코드에서 패치하는 대신 인프라 계층에서 시간적 맹목성 세금 (Temporal Blindness Tax)을 제거합니다. 출처

Amazon Bedrock AgentCore Web Search란 무엇이며 왜 지금 중요한가

Amazon Bedrock AgentCore web search는 AgentCore 런타임(runtime) 내부에서 제공되는 관리형 도구로, 추론(inference) 시점에 에이전트에게 구조화되고 근거가 명확하며 LLM에 최적화된 검색 결과를 반환합니다. 에이전트는 고정된 학습 가중치(training weights)를 통해 답변하는 대신, 현재의 웹 컨텍스트(pricing, 규정, API 버전, 시장 데이터 등)를 검색하고 인용 메타데이터(citation metadata)와 함께 근거 있는 답변을 합성합니다. AWS의 공식적인 설명은 AgentCore Web Search 출시 공식 포스트와 더 광범위한 Bedrock Agents 문서에서 확인할 수 있습니다.

프로덕션 AI 에이전트를 무너뜨리는 지식 컷오프(knowledge-cutoff) 문제

모든 파운데이션 모델(foundation model)에는 학습 컷오프(training cutoff)가 존재합니다. 모델이 출시되고, 미세 조정(fine-tuning)을 거쳐 검증을 완료하고 프로덕션 환경에 도달할 때쯤이면, 평균적인 기업용 에이전트는 12~18개월의 지식 격차(knowledge lag)를 안게 됩니다. 이는 AWS가 Summit New York 2025에서 웹 검색을 관리형 인프라로 출시하게 된 동기로 명시적으로 언급한 격차입니다. 이러한 격차는 데모에서는 보이지 않지만 프로덕션 환경에서는 치명적입니다. 예를 들어, 법률 에이전트가 폐지된 법령을 인용하거나, 이커머스 에이전트가 작년 가격을 제시하거나, 개발자 지원 에이전트가 더 이상 사용되지 않는(deprecated) SDK 메서드를 추천하는 상황이 발생할 수 있습니다. 모델이 틀린 것이 아니라, 시간적 인지 능력이 결여된 것입니다.

AgentCore Web Search와 브라우저 도구(Browser Tool)의 차이점

AWS는 AgentCore에서 두 가지 검색 프리미티브 (retrieval primitives)를 제공하며, 개발자들은 이를 자주 혼동하곤 합니다. AgentCore Browser Tool은 UI와 상호작용하거나 렌더링된 레이아웃을 읽어야 하는 시각 능력을 갖춘 에이전트(vision-capable agents)를 위해 DOM, 스크린샷 등 웹 페이지 전체를 렌더링합니다. 이는 무겁고 지연 시간(latency)이 더 높지만, 에이전트 기반 브라우징 (agentic browsing)에 최적화되어 있습니다. 반면, AgentCore Web Search는 토큰 효율적인 LLM 소비에 최적화된 구조화되고 요약되었으며 근거가 명확한 (grounded) 결과를 반환합니다. 지연 시간이 낮고 비용이 저렴하며 렌더링 오버헤드가 없습니다. 원칙은 간단합니다. 에이전트가 사실을 읽어야 한다면 Web Search를 사용하세요. 만약 브라우저를 조작해야 한다면 Browser Tool을 사용하세요.

실시간 웹 액세스를 애플리케이션 계층의 임시방편(hack)으로 취급하는 것을 멈추십시오. 그것이 관리형 인프라가 되는 순간, 그것은 당신이 일일이 관리해야 하는 글루 스크립트 (glue script)가 아니라, 보안 태세 (security posture), 비용 항목, 그리고 경쟁 우위 (competitive moat)가 됩니다.

AWS가 AWS Summit New York 2025에서 실제로 발표한 내용

AWS Summit New York 2025에서 AWS는 에이전트형 AI (agentic AI) 가속화를 위한 1억 달러 투자와 함께, Web Search를 AgentCore의 일급 도구 (first-class tool)로 소개했습니다. AWS Machine Learning 블로그에서 Eren Tuncer와 공동 저자들이 설명한 비즈니스 인텔리전스 에이전트들은 정적인 RAG 코퍼스 (RAG corpora) 대신 AgentCore를 사용하여 금융 질의를 실시간 시장 데이터에 근거하도록 (ground) 합니다. 이는 AWS가 시간 민감적인 공개 데이터에 대해 벡터 검색 (vector search)이 아닌 실시간 근거 제시 (live grounding)를 기본값으로 보고 있다는 직접적인 신호입니다. AWS가 에이전트 플랫폼을 어디로 이끌고 있는지에 대한 더 넓은 맥락을 파악하려면 AgentCore 제품 페이지를 공식 참조 자료로 확인하십시오.

Coined Framework

시간적 맹목세 (The Temporal Blindness Tax)

조직이 실시간 웹 컨텍스트 대신 고정된 학습 데이터에 대해 AI 에이전트를 실행할 때 매일 지불하게 되는 지연 시간, 환각 수정 (hallucination remediation), 그리고 신뢰 상실이라는 복합적인 비용입니다. 이는 사용자가 에이전트를 더 이상 신뢰하지 않게 될 때까지 그 어떤 청구서에도 나타나지 않는 조용한 비용 항목입니다.

$100M
AgentCore Web Search와 함께 발표된 에이전틱 AI (Agentic AI) 가속화를 위한 AWS의 투자
AWS Machine Learning Blog, 2025
...

구축 전, 시간적 맹목세 (Temporal Blindness Tax) 이해하기

Boto3 코드를 단 한 줄이라도 작성하기 전에, 고정된 지식 (frozen knowledge)이 실제로 어떤 비용을 초래하는지 수치화하십시오. 대부분의 팀은 환각 (hallucination)을 더 큰 모델이나 더 많은 미세 조정 (fine-tuning)으로 해결해야 할 모델 품질의 문제로 취급합니다. 하지만 이는 빈번하게 시간적 (temporal) 문제입니다. 모델을 아무리 업그레이드하더라도 학습 중단 시점 (cutoff) 이후에 발생한 사건에 대한 질문은 해결할 수 없습니다.

기업용 에이전트에서 고정된 지식의 비용 수치화하기

기업용 LLM 배포에 관한 연구에 따르면, 에이전트가 학습 중단 시점으로부터 6개월 이내에 발생한 사건에 대해 질의될 때 환각 발생률이 3~5배 급증하는 것으로 나타났습니다 (arXiv의 대규모 언어 모델에 대한 환각 조사 참조). 이러한 급증은 무작위적인 것이 아닙니다. 이는 가장 까다로운 사용자들이 가장 먼저 던지는, 이해관계가 높고 시간에 민감한 질의에 정확히 집중됩니다. 시간적 맹목세 (Temporal Blindness Tax)는 세 가지 화폐로 측정할 수 있습니다: 지연 시간 (latency) (재시도 루프 및 인간의 검토 단계 추가), 교정 (remediation) (근거 제시 실패 (grounding failures)를 패치하는 데 소요되는 엔지니어링 시간), 그리고 신뢰 (trust) (잘못된 정보를 한 번이라도 발견한 사용자는 시스템을 완전히 신뢰하지 않게 됨).

가장 비용이 많이 드는 환각은 명백하게 틀린 것이 아닙니다. 검토를 통과하여 고객에게 전달되는, 확신에 찬 듯 잘못된 오래된 사실입니다. 실시간 웹 근거 제시 (Live web grounding)는 시간 민감형 에이전트에서 발생하는 프로덕션 에스컬레이션(escalations)의 약 40%를 차지하는 '정보 노후화로 인한 확신에 찬 오답' 카테고리를 완전히 제거합니다.

RAG만으로는 더 이상 충분하지 않을 때

벡터 데이터베이스(Pinecone, pgvector, OpenSearch 등)를 활용한 Retrieval-Augmented Generation (RAG)는 기업 내부의 독점적인 문서(proprietary internal documents)를 다루는 데 여전히 필수적입니다. 하지만 공개적이고 시간에 민감한(time-sensitive) 질의에 대해서는 오히려 취약점이 됩니다. 벡터 저장소(vector store)의 신선도는 마지막 데이터 수집(ingestion) 작업의 상태에 따라 결정됩니다. 만약 파이프라인이 매일 밤 재색인(re-index)을 수행한다면 최소 24시간의 정보 공백(blindness window)이 발생하며, 대부분의 팀은 주 단위로 재색인을 수행합니다. 이 경계선을 긋는 것이 핵심입니다: 독점적 데이터 + 변화가 느림 → RAG; 공개적 데이터 + 시간에 민감함 → 웹 검색 (Web Search). Lewis 등이 작성한 원본 RAG 논문은 검색(retrieval)을 정보의 신선도를 해결하는 방법으로 정의했지만, 이는 인덱스가 항상 최신 상태를 유지한다는 가정을 전제로 합니다. 하지만 공개된 사실(public facts)의 경우 인덱스는 결코 최신 상태를 유지할 수 없습니다.

AgentCore Web Search가 제거하는 세 가지 실패 모드 (failure modes)

실시간 컨텍스트(live context)를 기반으로 정보를 제공(grounding)하는 순간, 세 가지 명확한 실패 모드가 사라집니다: 법률 에이전트에서의 오래된 규제 인용, 이커머스 에이전트에서의 낙후된 가격 정보, 그리고 개발자 지원 에이전트에서의 잘못된 API 버전입니다. AutoGen과 LangGraph 모두 AgentCore Web Search 호출로 직접 매핑되는 도구 호출(tool-calling) 패턴을 지원하므로, 기존 프레임워크 에이전트를 마이그레이션하는 것은 코드 전체를 다시 쓰는 것이 아니라 도구 선언(tool-declaration)을 변경하는 작업에 불과합니다.

Coined Framework

시간적 맹목세 (The Temporal Blindness Tax, 적용됨)

오답으로 인해 발생하는 모든 비용—복구 시간(remediation hours), 에스컬레이션 처리, 신뢰 상실(churned trust)—을 달러 단위로 산출할 수 있게 될 때, 비로소 실시간 근거 제시(live grounding)를 위한 도구 호출 예산(tool-call budget)을 정당화할 수 있습니다. '세금(Tax)'은 기본적으로 지불하게 되는 비용입니다. 웹 검색(Web Search)은 그 세금을 내지 않기 위해 지불하는 비용입니다.

Decision diagram routing time-sensitive queries to AgentCore web search and proprietary queries to a vector database in a hybrid RAG router

하이브리드 라우팅 결정: 시간에 민감한 공개 쿼리는 AgentCore Web Search로 보내고, 소유권이 있으며 변화가 느린 쿼리는 벡터 스토어 (Vector Store)에 유지합니다. 이 경계선을 올바르게 설정하는 것이 비용이 40% 초과되는 상황과 최적화된 프로덕션 시스템을 가르는 차이점이며, '시간적 맹목세 (Temporal Blindness Tax)'를 반복되는 비용에서 일회성 아키텍처 결정으로 전환하는 유일한 메커니즘입니다.

Amazon Bedrock AgentCore Web Search 아키텍처: 실제 작동 방식

AgentCore Web Search는 사용자가 직접 호출하는 API가 아니라, 런타임 (Runtime)이 사용자를 대신하여 호출하는 도구 (Tool)입니다. 이 차이가 취약한 통합과 관리형 통합을 가르는 핵심입니다.

시스템 아키텍처 및 데이터 흐름

AgentCore Web Search는 AgentCore 런타임 내에서 관리형 도구로 작동합니다. 일반적인 LangChain 스택에서의 Tavily 또는 Serper 통합과 달리, 교체해야 할 외부 API 키도 없고, 구현해야 할 속도 제한 백오프 (Rate-limit backoff)도 없으며, 별도의 과금 관계도 존재하지 않습니다. 검색 계층 (Retrieval layer)이 관리형 런타임과 동일한 위치에 배치되어 있기 때문에, 웹 검색 도구 호출에 대한 왕복 지연 시간 (Round-trip latency)이 공용 인터넷을 통해 외부 검색 API를 체이닝 (Chaining)하는 것보다 실질적으로 낮습니다.

AgentCore Web Search 도구 호출 데이터 흐름

  1

    **사용자 쿼리 → AgentCore 런타임**

쿼리가 invoke_agent를 통해 도착합니다. 런타임은 tools 배열에 web_search 도구가 선언된 상태로 구성된 모델 백엔드 (Claude 3.5 Sonnet 또는 Amazon Nova)에 쿼리를 전달합니다.

↓

  2
...

모델은 쿼리가 시간에 민감한지 여부를 추론합니다. 만약 그렇다면, 도구 호출 (Tool-call) 요청을 생성합니다. 애플리케이션 코드가 이를 라우팅하는 것이 아니라, 모델이 결정하고 런타임이 실행합니다.

↓

  3
...

모델 컨텍스트 프로토콜 (Model Context Protocol, MCP) 계층이 Web Search를 MCP 호환 도구로 노출합니다. 관리형 검색 계층은 런타임과 동일한 위치에서 검색을 실행하므로, 지연 시간이 낮고 제3자 API로의 데이터 유출 (Egress)이 발생하지 않습니다.

↓

  4
...

결과는 가공되지 않은 HTML이 아니라, 인용 메타데이터 (citation metadata)와 함께 요약되고 토큰이 최적화된 상태로 반환됩니다. 모델은 DOM 덤프 (DOM dump)가 아닌 정제된 근거 문맥 (grounding context)을 전달받습니다.

↓

  5
...

모델은 실시간 문맥 (live context)에 근거하여 최종 응답을 구성합니다. CloudTrail은 도구 호출 (tool call)을 기록하며, Langfuse 추적 (traces)을 통해 어떤 쿼리가 실행되었고 무엇이 검색되었는지 캡처합니다.

근거를 제시할 시점을 결정하는 것은 코드가 아니라 모델입니다. 런타임 (runtime)이 동일 위치에 배치된 (co-located) 검색을 실행하기 때문에, 외부 API 체이닝 (API chaining)보다 지연 시간이 짧습니다.

AgentCore가 도구 호출을 웹 검색으로 라우팅하는 방법

오케스트레이션 버스 (orchestration bus)는 AgentCore 내부의 Model Context Protocol (MCP) 서버 레이어입니다. 웹 검색은 MCP 호환 도구로 노출되므로, LangGraph 0.2+, CrewAI, AutoGen과 같은 모든 MCP 인식 프레임워크가 별도의 맞춤형 어댑터 (bespoke adapters) 없이도 이를 네이티브하게 호출할 수 있습니다. 커넥터 (connector)를 작성하는 것이 아니라, 도구를 선언하는 것입니다.