Amazon Bedrock AgentCore Web Search: 근거 기반 AI 에이전트를 위한 완전한 프로덕션 가이드

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 19일

여러분의 프로덕션 AI 에이전트는 지금 이 순간에도 사용자에게 거짓말을 하고 있으며, 여러분의 평가 스위트 (eval suite)는 이를 절대 잡아내지 못할 것입니다. Amazon Bedrock AgentCore web search는 단순한 기능 출시가 아닙니다. 이는 실시간 검색 (live retrieval) 없이 출시된 모든 에이전트가 첫날부터 성능 저하를 겪어왔음을 AWS가 조용히 인정하는 것입니다.

Amazon Bedrock AgentCore web search는 AWS 신뢰 경계 (trust boundary) 내부에서 실행되는 관리형, IAM 네이티브 실시간 웹 검색 (live web retrieval) 기능입니다. Tavily 키도 필요 없고, SerpAPI 외부 유출 예외 처리도 필요 없으며, 제3자 데이터가 여러분의 VPC를 벗어나지도 않습니다. 이것이 지금 중요한 이유는 업계 전체가 정적인 학습 데이터 컷오프 (training cutoffs)와 몇 주 안에 노후화되는 재색인된 벡터 저장소 (vector stores)를 기반으로 에이전트를 출시해 왔기 때문입니다. 저는 세 개의 별도 엔터프라이즈 배포 사례에서 이런 일이 발생하는 것을 목격했습니다. 평가 수치는 괜찮아 보이지만, 사용자들은 조용히 해당 서비스를 신뢰하지 않게 됩니다.

이 가이드를 마칠 때쯤이면 여러분은 인용 강제 (citation enforcement), 비용 가드레일 (cost guardrails), 그리고 하이브리드 RAG 폴백 체인 (hybrid RAG fallback chain)을 갖춘 웹 근거 기반 에이전트를 설계, 연결 및 출시할 수 있게 될 것입니다. 또한, 실제 운영 환경에서 문제가 발생하기 전에 어디에서 에이전트가 고장 나는지 정확히 알게 될 것입니다.

Architecture diagram of Amazon Bedrock AgentCore web search retrieval pipeline inside AWS trust boundary

쿼리 의도, 관리형 검색 실행, 근거 기반 컨텍스트 주입 (grounded context injection)을 보여주는 AgentCore web search 검색 흐름 — 실시간 검색이 왜 지식 부패 함정 (Knowledge Rot Trap)을 극복할 수 있는지 설명합니다. 출처

Amazon Bedrock AgentCore Web Search란 무엇이며 왜 모든 것을 바꾸는가

Amazon Bedrock AgentCore web search는 에이전트에게 관리되고 안전하며 실시간인 라이브 인터넷 경로를 제공합니다. 이는 도구 (tool)로서 호출되고, IAM에 의해 제어되며, AWS가 관리하는 샌드박스 (sandbox) 내부에서 실행되고, 구조화된 인용 메타데이터 (citation metadata)와 함께 근거가 명확한 답변을 반환합니다. 이는 AgentCore 스택의 다섯 번째 기둥입니다. 이 기능이 존재하는 이유는 이전의 네 가지 기둥이 AWS가 마침내 공개적으로 명명한 문제, 즉 '에이전트의 부패 (agents rot)'를 해결할 수 없었기 때문입니다. 이 기능은 AWS Machine Learning Blog를 통해 공식적으로 소개되었으며, 공식 AgentCore 개발자 문서에 기록되어 있습니다.

지식 부패의 함정 (The Knowledge Rot Trap): 정적 에이전트가 프로덕션 환경에서 실패하는 이유

다음은 대부분의 ML 팀이 출시 6주 후에 발견하게 되는 불편한 진실입니다. 고정된 학습 중단 시점 (training cutoff)을 가진 파운데이션 모델 (foundation model)을 기반으로 구축되고, 한 번 인덱싱된 후 거의 갱신되지 않는 벡터 데이터베이스 (vector database)로 보강되었으며, 실시간 검색 경로가 없는 에이전트는 요란하게 실패하지 않습니다. 대신 조용히, 그리고 자신만만하게 실패합니다. 금융, 법률, 클라우드 인프라, 규제와 같이 빠르게 변화하는 도메인에서는 모든 오프라인 평가 지표 (eval metric)가 정상(green)을 유지하는 동안에도 사실적 정확도가 매월 약 3~7%씩 감소합니다. Amazon Bedrock 문서는 이제 이를 최우선적인 아키텍처 설계 고려 사항으로 다룹니다.

명명된 프레임워크 (Coined Framework)

지식 부패의 함정 (The Knowledge Rot Trap)

에이전트의 정적인 학습 중단 시점, 오래된 벡터 데이터베이스, 그리고 실시간 검색의 부재가 결합되어 발생하는 복합적인 성능 저하 사이클을 의미합니다. 이는 평가 지표에서는 보이지 않지만 프로덕션 도입 단계에서는 치명적인 신뢰 붕괴를 초래합니다. 이 용어는 벤치마크가 측정하는 것(고정된 테스트 세트)과 사용자가 경험하는 것(변화하는 세상) 사이의 간극을 명시합니다.

이 함정이 매우 위험한 이유는 다음과 같습니다: 귀하의 평가 세트(eval suite)는 구조적으로 학습 데이터가 생성된 바로 그 시점에 고정되어 있습니다. 귀하는 더 이상 존재하지 않는 세상을 대상으로 에이전트를 테스트하며, 에이전트는 테스트를 통과합니다. 그 사이 사용자가 지난 화요일에 발표된 AWS 서비스에 대해 질문하면, 에이전트는 18개월 전의 현실을 자신 있게 설명하고, 귀하의 신뢰 곡선(trust curve)은 조용히 하향 곡선을 그립니다. 아무도 버그를 보고하지 않습니다. 그들은 그저 사용을 중단할 뿐입니다. 이러한 현상은 언어 모델의 시간적 일반화(temporal generalization)에 관한 발표된 연구와 일치하며, 해당 연구는 학습 중단 시점(training cutoff)과 질의 시점 사이의 간극이 넓어짐에 따라 측정 가능한 정확도 저하가 발생함을 기록하고 있습니다.

정적 에이전트(Static agents)는 출시 당일에 실패하지 않습니다. 그들은 세상은 변했지만 평가 세트는 변하지 않은 47일째 되는 날 실패하며, 그때가 되면 신뢰는 이미 사라진 상태입니다.

AgentCore Web Search가 전체 AgentCore 스택에 포함되는 방식

2025년 중반까지 AWS는 다섯 가지 AgentCore 기둥(pillars)을 구축했습니다: Runtime (서버리스 에이전트 실행), Memory (지속적인 세션 및 장기 상태), Browser (격리된 헤드리스 브라우징), Code Interpreter (샌드박스 코드 실행), 그리고 이제 Web Search (관리형 실시간 검색)입니다. 이들은 함께 AgentCore를 LangGraph + n8n + AutoGen을 직접 조합하여 사용하는 방식에 대한 AWS 네이티브 대안으로 자리매김하게 합니다. 차이점은 신뢰 경계(trust boundary)에 있습니다: 모든 기둥은 IAM 네이티브 액세스 제어를 갖춘 AWS 관리형 격리 환경 내에서 실행됩니다. 이 스택이 처음이라면, 당사의 AI 에이전트 아키텍처 가이드를 통해 이러한 기둥들이 어떻게 구성되는지 살펴볼 수 있습니다.

AgentCore vs OpenAI Assistants vs LangGraph Web Tools: 기능 매트릭스

이 지점에서 아키텍처의 차이가 명확해집니다. OpenAI Assistants는 토글을 통해 Bing 검색을 노출합니다. LangGraph는 Tavily나 SerpAPI를 커스텀 도구 노드 (tool node)로 직접 연결해야 합니다. CrewAI는 원시 API 호출 주위에 도구 데코레이터 (tool decorators)를 사용합니다. AgentCore는 이 모든 것을 IAM 네이티브 인증 (IAM-native auth), AWS급 속도 제한 (rate limiting), 그리고 CloudWatch 네이티브 로깅 (CloudWatch-native logging)을 갖춘 단일 관리형 기능으로 추상화합니다. 공유 비밀값(shared secrets)도, 벤더 리스크 평가(vendor risk assessments)도 필요하지 않습니다.

기능	AgentCore Web Search	OpenAI Assistants	LangGraph + Tavily	CrewAI
검색 제공자 (Search provider)	AWS 관리형	Bing (토글)	Tavily / SerpAPI	Tavily / SerpAPI
인증 모델 (Auth model)	IAM 네이티브	OpenAI 키	제3자 API 키	제3자 API 키
데이터 거주성 제어 (Data residency control)	AWS 리전 제한	제한적	외부 유출 (External egress)	외부 유출 (External egress)
인용 메타데이터 (Citation metadata)	구조화됨 (Structured)	인라인 (Inline)	수동 파싱 (Manual parsing)	수동 파싱 (Manual parsing)
MCP 호환성 (MCP-compatible)	예	부분적	어댑터(adapter)를 통해	어댑터(adapter)를 통해
네이티브 속도 제한 (Native rate limiting)	AWS급	플랫폼 제공	직접 구현 (DIY)	직접 구현 (DIY)

경쟁 우위(competitive moat)는 검색 품질이 아니라 신뢰 경계(trust boundary)에 있습니다. 규제를 받는 은행의 경우, AgentCore 웹 검색이 쿼리 페이로드(query payloads)를 us-east-1 IAM 범위 내에 유지하는 것은, 외부 유출 정책 예외(egress policy exception)를 요구하는 제3자 검색 벤더로부터 얻는 2%의 관련성(relevance) 향상보다 더 가치 있는 일입니다.

아키텍처 심층 분석: AgentCore Web Search의 실제 작동 방식

내부적으로 AgentCore 웹 검색은 **MCP 호환 도구 엔드포인트 (MCP-compatible tool endpoint)**로 작동합니다. 이 단일한 설계 결정은 사양서의 그 어떤 기능보다 중요합니다. 이는 Model Context Protocol (MCP)를 인식하는 모든 오케스트레이션 레이어 — Anthropic의 도구 기능을 통한 Claude, Bedrock Agents, 또는 커스텀 LangGraph 노드 — 가 별도의 맞춤형 통합 코드(bespoke integration glue) 없이도 이를 호출할 수 있음을 의미합니다.

검색 파이프라인: 쿼리에서 근거 기반 응답까지

이 흐름은 보기에는 매우 단순하지만, 이는 의도된 설계입니다. 에이전트(Agent)가 검색 의도(search intent)를 방출하면, AgentCore가 관리형 웹 쿼리(managed web query)를 실행합니다. 결과는 AWS 네트워크 내부에서 가져오기(fetch), 청킹(chunking), 그리고 재순위화(re-ranking) 과정을 거칩니다. 근거가 확보된 컨텍스트(grounded context)는 모델 프롬프트(model prompt)에 주입되며, 인용(citation)은 모델이 출처를 누락할 수도 있는 단순 텍스트 덩어리가 아닌 구조화된 메타데이터(structured metadata) 형태로 반환됩니다.

AgentCore Web Search: 쿼리 의도에서 근거 기반 응답까지

  1

    **에이전트가 검색 의도 방출 (Bedrock Runtime)**

모델은 현재 지식이 부족하다고 판단하고 MCP 도구 인터페이스(MCP tool interface)를 통해 구조화된 검색 호출을 방출합니다. 결정 지점: 모델의 지식 vs 실시간 검색(live retrieval).

↓

  2
...

AgentCore는 격리된 상태 비저장 샌드박스(isolated, stateless sandbox) 내에서 웹 쿼리를 실행합니다. 지속적인 브라우저 상태(persistent browser state)가 없으며, 추론 루프(reasoning loop)로 자격 증명이 노출되지 않습니다. 지연 시간 예산(Latency budget): 약 800ms–1.5s.

↓

  3
...

가공되지 않은 결과(Raw results)는 AWS 경계를 벗어나지 않고 관련성에 따라 청킹 및 재순위화됩니다. 출력값: 소스 URL 및 검색 타임스탬프를 포함한 상위 N개의 근거 기반 구절(grounded passages).

↓

  4
...

재순위화된 구절들은 구조화된 인용 메타데이터와 함께 컨텍스트로서 모델 프롬프트에 주입됩니다. 근거 기반의 최신 사건 답변을 위한 전체 목표 시간은 2초 미만입니다.

↓

  5
...

모델은 소스 URL과 타임스탬프를 구조화된 필드로 드러내며 답변을 합성합니다. 이를 통해 UX 레이어에서 인용 강제(citation enforcement)가 가능해집니다.

이 시퀀스가 중요한 이유는 인용 메타데이터가 추론되는 것이 아니라 구조적으로 반환되기 때문입니다. 이는 검증 가능한 답변과 자신감 있는 환각(hallucination) 사이의 차이를 만듭니다.

MCP 통합: AgentCore가 웹 검색을 도구로 노출하는 방법

엔드포인트가 MCP를 지원하기 때문에, 오케스트레이션 프레임워크 (orchestration framework)마다 커스텀 어댑터 (custom adapter)를 작성할 필요가 없습니다. LangGraph의 ToolNode, AutoGen 에이전트, 또는 CrewAI의 @tool 함수가 각각 동일한 관리형 엔드포인트 (managed endpoint)에 바인딩됩니다. 이는 Model Context Protocol이 약속했던 바를 실질적으로 구현한 것입니다. 즉, 도구를 앱별 접착 코드 (per-app glue code)가 아닌, 휴대 가능하고 거버넌스가 적용된 기능 (governed capabilities)으로 취급하는 것입니다. 저는 그 차이를 체감할 수 있을 만큼 충분히 많은 양의 앱별 접착 코드를 다뤄본 경험이 있습니다.

보안 및 격리 모델 (Security and Isolation Model): 무엇이 어디에서 실행되는가

검색 실행은 영구적인 브라우저 상태가 없는 AWS 관리형 샌드박스 (sandbox) 내부에서 이루어지며, 이는 아키텍처 측면에서 AgentCore의 브라우저 격리 (Browser isolation) 모델과 유사합니다. 루프 (loop)가 네트워크에 직접 접촉하지 않기 때문에, 에이전트의 추론 루프 (reasoning loop)로 자격 증명이 유출될 경로가 없습니다. 이를 벡터 데이터베이스 (vector database)를 이용한 RAG와 대조해 보십시오. Pinecone, OpenSearch, 또는 pgvector를 통한 검색은 재인덱싱 (re-index)을 하기 전까지는 정적입니다. 반면 AgentCore 웹 검색 검색 (retrieval)은 실시간이며, 최신 사건에 대해 근거 있는 답변을 제공하는 것을 목표로 2초 미만의 응답 시간을 지향합니다.

RAG는 마지막으로 인덱싱했을 때 무엇이 사실이었는지를 알려줍니다. 웹 검색은 지금 무엇이 사실인지를 알려줍니다. 대부분의 프로덕션 에이전트는 두 가지 모두가 절실히 필요하지만, 둘 중 어느 것도 제대로 작동하는 상태로 출시되지 않습니다.

3–7%
변화가 빠른 도메인에서 정적 에이전트의 예상 월간 사실 정확도 저하율
[arXiv temporal generalization research, 2024](https://arxiv.org/abs/2402.01619)
...

Comparison chart of static RAG vector database retrieval versus live AgentCore web search freshness over time

지식 부패 (Knowledge Rot) 함정이 구조적인 이유는 다음과 같습니다: 벡터 데이터베이스의 정확도는 재인덱싱 사이에 단계적으로 하락하는 반면, 실시간 웹 검색은 현실을 지속적으로 추적합니다.

코드 한 줄을 쓰기 전의 필수 요구 사항 및 환경 설정

이 섹션을 건너뛰면 SDK 버그처럼 보이는 IAM 거부(denials) 문제를 디버깅하는 데 이틀을 허비하게 될 것입니다. 추측이 아니라, 실제로 고객 배포 과정에서 정확히 그런 일을 겪었습니다. 이 단계를 제대로 수행하면 첫 번째 근거 기반(grounded) 쿼리를 오후 안에 실행할 수 있습니다.

AWS 계정 요구 사항, IAM 역할(Roles) 및 Bedrock 모델 액세스

최소 하나 이상의 파운데이션 모델(Foundation Model) — Claude 3.5 Sonnet, Nova Pro 또는 Titan을 시작점으로 권장합니다 — 에 대한 Bedrock 모델 액세스 권한이 부여된 AWS 계정이 필요합니다. AgentCore Runtime은 Bedrock 콘솔의 Agent Capabilities 탭에서 활성화되어야 합니다. 정책 범위를 설정하기 전에 공식 AWS Bedrock IAM 문서를 검토하십시오. 최소 실행 가능한 IAM 권한 세트는 의도적으로 좁게 설정되었습니다:

IAM 정책 — 최소 권한 원칙(least-privilege) 웹 검색

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Effect": "Allow",
      "Action": [
        "bedrock:InvokeAgent",
        "bedrock-agentcore:SearchWeb",
        "bedrock-agentcore:GetSearchResults"
      ],
      "Resource": "*"
    }
  ]
}

// 최소 권한 범위 설정은 의도하지 않은 액션을 호출하는 무제한 검색 루프로 인한 예기치 않은 비용 초과를 방지합니다.