Amazon Bedrock AgentCore 웹 검색: 제로 이그레스 그라운딩(Zero-Egress Grounding)을 위한 빌더 가이드

원문은 twarx.com에서 처음 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 19일

여러분의 팀이 2024년에 구축한 모든 RAG (Retrieval-Augmented Generation, 검색 증강 생성) 파이프라인은 지금 이 순간에도 조용히 노후화되고 있습니다. 실시간 웹 그라운딩 (Web Grounding)으로 교체하는 것을 미룰수록, 여러분의 AI 에이전트는 어제의 사실을 바탕으로 사용자에게 확신을 가지고 거짓말을 하게 될 것입니다.

**Amazon Bedrock AgentCore 웹 검색 (web search)**은 Bedrock 에이전트를 실시간 웹 데이터에 데이터 이그레스(Data Egress, 데이터 유출) 없이 연결하는 AWS의 완전 관리형 그라운딩 (Grounding) 도구입니다. 스크래핑 인프라, 별도의 API 키, AWS 경계를 벗어나는 쿼리 데이터가 전혀 필요하지 않습니다. 이는 마지막 인덱스 업데이트 이후 몇 주 만에 프로덕션 에이전트를 무너뜨리는 지식 컷오프 (Knowledge-cutoff) 장벽에 대한 직접적인 아키텍처적 대응으로 출시되었습니다.

이 가이드를 마칠 때쯤 여러분은 검색 파이프라인이 정확히 어떻게 작동하는지, 실시간 리서치 에이전트를 어떻게 배포하는지, LangGraph 및 OpenAI와 비교했을 때 벤치마크 결과가 어떠한지, 그리고 실제 프로덕션 환경에서 승리하는 하이브리드 라우팅 (Hybrid Routing) 패턴이 무엇인지 알게 될 것입니다. 아래 수치 중 AWS가 아닌 내부 테스트에서 나온 데이터는 Twarx 내부 벤치마크 (Twarx internal benchmarks)라고 명시하고 한 줄의 방법론을 함께 제공하므로, 모든 수치를 정직하게 판단하실 수 있습니다.

Architecture diagram showing Amazon Bedrock AgentCore web search grounding flow with zero data egress boundary

AgentCore 웹 검색 그라운딩 흐름은 모든 쿼리 데이터를 AWS 계정 경계 내에 유지합니다. 이는 OpenAI의 호스팅 검색 기능이 컴플라이언스 (Compliance, 규정 준수) 검토를 통과하지 못했던 엔터프라이즈 배포의 걸림돌을 제거한 설계 선택입니다. 출처: AWS Machine Learning Blog, 2026년 6월, Antje Barth 및 Amazon Bedrock 팀 작성

Amazon Bedrock AgentCore 웹 검색이란 무엇이며 왜 지금 중요한가

Amazon Bedrock AgentCore 웹 검색은 대부분의 AI 팀이 조용히 외면해 왔던 불편한 진실을 드러냈습니다. 즉, 지식 베이스 우선(knowledge-base-first) 아키텍처는 근본적인 토대가 아니라 결여된 기능을 메우기 위한 임시방편이었다는 사실입니다. 지난 3년 동안 빌더들은 모델이 학습 데이터 차단 시점(training cutoff) 이후의 정보를 볼 수 없었기 때문에, LLM에 벡터 데이터베이스(vector databases)를 덧붙여 왔습니다. 웹 그라운딩(Web grounding)이 항상 정답이었지만, 지금까지는 관리형 프리미티브(managed primitive)가 아니었을 뿐입니다. 이것이 바로 우리 중 많은 이들이 임시방편을 구축하고 그것을 전략이라 불렀던 이유입니다.

AWS의 공식 발표가 빌더들의 결과물(Ship)을 어떻게 변화시키는가?

AWS는 데이터 이그레스(data egress)가 전혀 필요 없는 완전 관리형 그라운딩 도구로서 Amazon Bedrock AgentCore의 웹 검색을 출시했습니다. '제로 데이터 이그레스(zero data egress)'라는 문구에 이 제안의 핵심이 담겨 있습니다. 웹에 연결된 에이전트 배포가 기업 보안 검토 단계에서 무산되는 것을 본 적이 있다면, 그 이유를 이미 알고 계실 것입니다. 에이전트를 공개 웹에 연결한다는 것은 쿼리 데이터가 제3자 검색 제공업체로 흐른다는 것을 의미했습니다. 핀테크나 헬스케어 계정의 경우, 아키텍처 다이어그램 상의 단 하나의 데이터 흐름 선만으로도 프로덕션 코드가 배포되기도 전에 프로젝트가 중단되기에 충분했습니다.

AgentCore는 AWS 네이티브 인프라를 사용하여 콘텐츠를 가져오며(content fetching), 어떤 쿼리 데이터도 AWS 경계를 넘지 않습니다. 에이전트는 단일 관리형 도구를 호출하고, AWS가 콘텐츠를 검색 및 그라운딩하며, 응답은 인라인으로 인용된 URL과 함께 돌아옵니다. 유지 관리할 스크래핑 클러스터(scraping cluster)도 필요 없고, 작성해야 할 속도 제한(rate-limit) 로직도 없습니다. 그리고 — 과거에 스프린트 전체를 잡아먹곤 했던 것 — 구축해야 할 중복 제거(deduplication) 레이어도 없습니다. 더 넓은 범위의 AgentCore 플랫폼은 이를 메모리(memory), ID(identity), 관측성(observability) 프리미티브와 함께 패키징하여 제공합니다.

"제로 이그레스 (zero-egress) 경계야말로 웹 그라운딩 (web grounding)을 단순한 개념 증명 (PoC) 단계에서 이사회 승인이 가능한 배포 단계로 마침내 이동시킨 핵심 요소입니다,"라고 AWS의 Generative AI 수석 개발자 어드보케이트 (Principal Developer Advocate)인 Antje Barth는 공식 출시 포스트에서 밝혔습니다. "규제 산업의 고객들은 이제 정보의 최신성 (freshness)과 컴플라이언스 (compliance) 사이에서 더 이상 선택을 고민할 필요가 없습니다."

AgentCore 웹 검색이 RAG, 벡터 데이터베이스(Vector Databases), 브라우저 도구 호출(Browser Tool Calls)과 다른 점

스크래핑 (scraping) 인프라를 직접 관리해야 하는 LangGraph나 AutoGen의 브라우저 통합 방식과 달리, AgentCore는 전체 검색 레이어 (retrieval layer)를 하나의 관리형 API 호출 뒤로 추상화합니다. 만약 벡터 데이터베이스를 통한 RAG (Retrieval-Augmented Generation)를 실행 중이라면, 문서를 임베딩 (embedding)하고 인덱싱 (indexing)한 뒤 유사도를 쿼리하게 되는데, 이는 인덱싱 시점에 고정된 지식의 스냅샷 (snapshot)입니다. AgentCore 웹 검색을 사용하면 최신성의 경계는 마지막 재인덱싱 (re-index) 시점이 아니라 '지금 이 순간'이 됩니다.

RAG는 '우리가 마지막으로 인덱싱했을 때 무엇을 알고 있었는가?'라는 질문에 답합니다. 웹 그라운딩 (web grounding)은 '지금 현재 무엇이 사실인가?'라는 질문에 답합니다. 대부분의 프로덕션 에이전트 (production agents)들은 지난 2년 동안 잘못된 질문에 답해왔습니다.

지식 컷오프 비용 (The Knowledge Cutoff Tax): 노후화된 에이전트가 실제로 비즈니스에 미치는 비용 산출

Gartner의 연구에 따르면, 환각 (hallucination) 해결 및 오래된 데이터 (stale-data) 관련 사고로 인해 기업 AI 팀의 에이전트 유지보수 예산 중 연평균 23%가 소모되는 것으로 추정됩니다. 이는 그 누구도 로드맵에 포함하지 않았던 숨겨진 비용 항목입니다. Bedrock을 통해 Claude 3.5 Sonnet 기반으로 구축되었으며 주 단위로 갱신되는 RAG 인덱스를 사용하는 한 핀테크 에이전트의 사례를 살펴보겠습니다. Twarx의 내부 테스트 결과, 인덱스 재갱신 직전 며칠 동안 규제 관련 질문에 대해 14%의 오류율을 기록했습니다. 웹 검색 그라운딩 (web search grounding)으로 전환한 후, 이 오류율은 1% 미만으로 급감했습니다. (Twarx 내부 벤치마크, 2026년 5월; 방법론: 당일의 1차 출처 정답(ground truth)을 기준으로 500개의 규제 Q&A 쌍을 평가함).

새롭게 정의된 프레임워크

지식 컷오프 비용 (The Knowledge Cutoff Tax)

마지막 인덱스 업데이트 이후, RAG에 의존하는 모든 에이전트가 매일 축적하게 되는 엔지니어링 시간, 환각 (hallucination) 해결, 그리고 사용자 신뢰 저하로 인한 복합적인 숨겨진 비용입니다. 이는 AgentCore 웹 검색이 제거하도록 설계된 아키텍처 부채 (architectural debt)입니다. 대부분의 팀은 이 비용이 지원 티켓(support tickets)과 인덱스 재갱신 크론 잡(re-index cron jobs) 내부에 숨겨져 있기 때문에 재무제표에 기재하지 않습니다.

23%
기업 에이전트 유지보수 예산이 오래된 데이터 및 환각 해결에 소모됨
[Gartner, 2025](https://www.gartner.com/en/information-technology)
...

지식 컷오프 비용: RAG만으로는 왜 실패하는지 이해하기 위한 프레임워크

RAG 전용 아키텍처가 데모에서는 괜찮아 보이다가 운영 환경(production)에서 무너지는 이유는, 지식의 노후화 (knowledge decay)가 출시 시점에는 보이지 않다가 이후 복리로 누적되기 때문입니다. 인덱스는 배포하는 날이 가장 최신 상태입니다. 그 이후 매일, 에이전트가 믿고 있는 것과 실제 사실 사이의 간극은 조용히 벌어지며, 여러분은 사용자가 이를 처음 발견했을 때에야 비로소 그 사실을 알게 됩니다.

30일, 60일, 90일에 걸쳐 에이전트 세션 전반에 걸쳐 지식 노후화가 복리로 누적되는 방식

재색인 주기(re-index cadence)가 최악의 상황을 결정하기 때문에, 30일 주기를 사용할 경우 의료, 핀테크(fintech), 법률과 같이 매주 규제가 업데이트되는 분야에서 운영되는 에이전트는 최대 29일의 지식 지연(knowledge lag)을 겪게 됩니다. 규제 산업에서 확신에 차서 말하는 29일간의 오래된 정보는 실질적인 피해를 입히기에 충분합니다. 재색인 없이 60일째가 되면, 에이전트는 두 달 전의 가정을 매우 자신 있게 제시하며 작동하게 됩니다. 모델에게 자신의 지식이 오래되었다고 알려주는 내부 신호는 없습니다. 파라미터 지식(Parametric knowledge)과 인덱스 지식(indexed knowledge) 모두 모델에게는 똑같이 확실하게 느껴지는데, 이것이 바로 교활한 부분입니다.

Amazon Q Business에 대한 AWS 사례 연구에 따르면, 실시간 검색(live retrieval)을 추가했을 때 정적 문서 그라운딩(static document grounding)만 사용했을 때보다 인용 관련 지원 에스컬레이션(support escalations)이 40% 감소한 것으로 나타났습니다. 이러한 에스컬레이션은 모델 품질의 문제가 아니라, 모델 품질 문제로 위장한 신선도(freshness)의 문제였습니다.

세 가지 실제 실패 모드: 컴플라이언스 드리프트(Compliance Drift), 가격 오류, 그리고 폐기된 API 참조

컴플라이언스 드리프트(Compliance drift)가 가장 위험합니다. 규제는 변경되었는데 에이전트는 계속해서 폐기된 규칙을 인용하는 경우입니다. 가격 오류는 가장 흔한 사례입니다. SaaS 에이전트가 지난주에 가격이 재조정된 티어를 인용하는 경우입니다. 폐기된 API 참조는 개발자 대상 에이전트에게 가장 교활한 문제입니다. 모델이 두 버전 전에 삭제된 메서드를 추천하고, 주니어 엔지니어가 이를 그대로 배포해 버리는 상황입니다. 저는 고객 팀에서 마지막 사례가 발생하는 것을 목격했는데, 사후 분석(postmortem) 과정은 결코 즐겁지 않았습니다. 폐기된 SDK 호출이 운영 환경에 반영되었고, 누군가 인과관계를 파악하기 전까지 웹훅(webhook)이 3일 동안 조용히 이벤트를 누락시켰기 때문입니다.

벡터 데이터베이스의 신선도 SLA가 대규모 환경에서 상업적으로 지속 불가능한 이유

LangGraph와 CrewAI 모두 웹 검색 도구 통합을 지원하지만, 팀이 API 속도 제한 (Rate limits), 콘텐츠 파싱 (Content parsing), 중복 제거 (Deduplication)를 직접 관리해야 합니다. AgentCore는 이 세 가지를 모두 제거합니다. 그리고 결정적으로 — Assistants API의 OpenAI 웹 검색 도구는 검색당 비용을 부과하며 쿼리를 OpenAI 서버에 노출합니다. AgentCore의 제로 이그레스 (Zero-egress) 모델은 현재의 호스팅 아키텍처 하에서 OpenAI가 따라올 수 없는 컴플라이언스 (Compliance) 우위를 제공합니다.

주간 재색인 (Re-index) 주기는 7일 중 6일 동안은 틀릴 수 있다는 약속과 같습니다. 우리는 그 대안이 AI 팀 내부에 스크래핑 (Scraping) 전문 회사를 구축해야 했던 과거의 상황을 고려하여, 그 약속을 표준화했습니다.

Chart showing knowledge decay curve of a RAG agent over 90 days versus flat accuracy of web-grounded agent

지식 컷오프 세금 (Knowledge Cutoff Tax) 시각화: RAG 정확도는 재색인 주기 사이에 선형적으로 감소하는 반면, 웹 그라운딩 (Web-grounded) 에이전트는 평탄한 신선도 라인을 유지합니다. 음영 처리된 간격이 바로 그 비용입니다.

Amazon Bedrock AgentCore 웹 검색은 내부적으로 어떻게 작동하는가?

여기서는 아키텍처 (Architecture)가 중요합니다. 아키텍처가 지연 시간 예산 (Latency budget)과 컴플라이언스 태세 (Compliance posture)를 모두 결정하기 때문입니다. Amazon Bedrock AgentCore 웹 검색은 Bedrock Agents 오케스트레이션 (Orchestration) 레이어 내에서 관리형 도구로 작동합니다. 별도의 인프라 프로비저닝 (Provisioning)이 필요 없으며, 인라인으로 인용된 URL이 포함된 구조화된 응답을 제공합니다. 에이전트가 이를 호출할 때 실제로 실행되는 시퀀스는 다음과 같습니다.

AgentCore 웹 검색 요청 흐름: 호출에서 인용된 응답까지

  1

    **Bedrock Agent 호출 (Invocation)**

사용자 쿼리가 도착합니다. 에이전트의 오케스트레이션 레이어 (Claude 3.5 Sonnet 또는 Nova Pro)는 쿼리가 지식의 시간 민감성을 가지는지, 그리고 그라운딩 (Grounding)이 필요한지 결정합니다. 이 라우팅 (Routing) 결정 단계에서 지연 시간의 승패가 갈립니다.

↓

  2
...

에이전트는 생성된 쿼리(Query)를 사용하여 관리형 웹 검색 도구 (Managed Web Search Tool)를 호출합니다. API 키도, 속도 제한 (Rate-limit) 로직도 필요하지 않습니다. AWS가 계정 경계 (Account Boundary) 내부에서 데이터 가져오기, 파싱 (Parsing), 중복 제거 (Deduplication)를 모두 처리합니다.

↓

  3
...

콘텐츠는 쿼리 데이터가 AWS를 벗어나지 않는 제로 이그레스 그라운딩 (Zero-Egress Grounding) 방식으로 가져와지며 근거가 마련됩니다. 검색 계층 (Retrieval Layer)은 소스 URL이 첨부된 순위가 매겨지고 중복이 제거된 구절 (Passages)을 반환합니다.

↓

  4
...

모델은 검색된 구절로 제한된 답변을 합성하며, 인라인 (Inline)으로 인용된 URL을 반환합니다. 전체 왕복 시간 (Total Round Trip)은 AWS 벤치마크 기준 2초 미만입니다.

↓

  5
...

모든 검색은 CloudTrail을 통해 기록되며 IAM에 의해 범위가 지정됩니다. 이는 일반 소비자용 검색 제품이 제공할 수 없는 감사 추적 (Audit Trail)입니다.

이 시퀀스 (Sequence)가 중요한 이유는 1단계의 라우팅 (Routing) 결정이 매 턴마다 웹 검색 지연 시간 비용을 지불할지, 아니면 최신성 (Freshness)이 실제로 필요할 때만 지불할지를 결정하기 때문입니다. 출처: AWS Machine Learning Blog, 2026년 6월, Antje Barth 작성