Amazon Bedrock AgentCore 웹 검색: 2026년 아키텍처 및 ROI 가이드

원문은 twarx.com에서 처음 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 20일

여러분의 팀이 2024년에 출시한 모든 프로덕션 AI 에이전트(AI agent)는 이미 사용자에게 거짓말을 하고 있습니다. 그리고 지식 컷오프(knowledge cutoff)는 패치로 해결할 수 있는 버그가 아닙니다. 그것은 여러분이 인지하지 못한 채 지불해 온 구조적 세금입니다. Amazon Bedrock AgentCore 웹 검색(web search)은 이 세금을 완전히 제로(zero)로 만드는 최초의 AWS 네이티브 메커니즘이며, 여러분의 화이트보드에 있는 모든 에이전트 아키텍처(agentic architecture) 다이어그램의 경제성을 다시 작성합니다.

이 가이드는 Amazon Bedrock AgentCore 웹 검색을 다룹니다. 이는 AWS가 2025년 5월 21일에 출시한 관리형 런타임(in-runtime) 도구로, Bedrock 에이전트가 추론(inference) 시점에 실시간 SERP(검색 엔진 결과 페이지) 수준의 웹 데이터를 검색하고, 구조화되고 인용된 결과를 Claude, Nova 또는 Titan 추론 루프(reasoning loop)로 직접 전달할 수 있게 해줍니다. 이것이 지금 중요한 이유는 동일한 프리미티브(primitive)가 오케스트레이션(orchestration)을 다시 작성할 필요 없이 MCP를 통해 LangGraph, AutoGen 및 CrewAI에 연결되기 때문입니다.

이 글을 끝까지 읽으면 아키텍처, 실제 호출당 비용, AWS가 광고하지 않는 실패 모드(failure modes), 그리고 이번 분기에 정확히 무엇을 출시해야 하는지를 알게 될 것입니다.

Amazon Bedrock AgentCore web search runtime grounding a Claude agent with live cited web results

Amazon Bedrock AgentCore 웹 검색이 사용자 쿼리와 LLM 응답 사이에 실시간 그라운딩(grounding) 단계를 삽입하여 추론 시점의 지식 감쇠 세금(Knowledge Decay Tax)을 제거하는 방식. 출처

Amazon Bedrock AgentCore 웹 검색이란 무엇이며 왜 지금 중요한가?

Amazon Bedrock AgentCore 웹 검색(web search)은 AgentCore 런타임(runtime) 내부에 있는 관리형 도구로, 에이전트 실행 중에 실시간 웹 콘텐츠를 검색하여 구조화된 JSON(소스 URL, 스니펫(snippets), 신뢰도 신호 등) 형태로 반환합니다. 이는 파운데이션 모델(foundation model)이 답변의 근거를 마련(grounding)할 수 있도록 준비된 상태로 제공됩니다. 이것은 벡터 스토어(vector store)가 아닙니다. EC2에서 직접 관리해야 하는 스크래퍼(scraper)도 아닙니다. 이는 전체 인제스션 및 리프레시(ingestion-and-refresh) 파이프라인을 대체하는 단일 API 호출입니다. 이것이 에이전트 생태계에 어떻게 부합하는지에 대한 더 넓은 맥락에서, Gartner의 AI 연구는 실시간 그라운딩(real-time grounding)을 2026년의 결정적인 역량으로 정의하고 있습니다.

이 기능이 2년 전이 아닌 지금 등장한 이유는, 시간 민감형 질의(time-sensitive queries)에서 오류가 발생했을 때의 비용이 마침내 측정 가능한 수준이 되었고, AWS가 그 수치를 발표했기 때문입니다.

지식 부패세(The Knowledge Decay Tax): 노후된 에이전트가 초래하는 비용의 정량화

고정된 학습 컷오프(training cutoff)나 매주 업데이트되는 RAG 인덱스(RAG index)를 기반으로 구축된 모든 에이전트는, 매일 실제 영역(territory)으로부터 점점 더 멀어지는 지도 위에서 작동하고 있는 것과 같습니다. 저는 이를 '지식 부패세(Knowledge Decay Tax)'라고 부르며, AWS가 자체 발표한 벤치마크를 통해 그 범위를 산출할 수 있습니다. 약 6개월의 지식 컷오프를 가진 엔터프라이즈 에이전트는 시간 민감형 질의(가격, 규제 상태, 리더십 교체, 제품 가용성 등)에서 추정 23~41%의 오류율을 발생시킵니다.

정립된 프레임워크(Coined Framework)

지식 부패세(The Knowledge Decay Tax) — 검색된 컨텍스트(context)가 실제 사실(ground truth)로부터 멀어질 때마다 모든 엔터프라이즈 AI 에이전트가 매일 조용히 누적하게 되는 생산성 및 정확도 비용의 복리적 손실로, 이제 실시간 웹 그라운딩(live web grounding)을 통해 정량화 및 제거가 가능함

이는 노후된 컨텍스트에 대해 지불하는 보이지 않는 이자와 같습니다. 매일 발생하는 작은 오류가 쌓여 환각(hallucination)을 동반한 합성 및 잘못된 의사결정으로 이어집니다. 실시간 웹 그라운딩은 이 비용을 줄이는 것이 아니라, 제로(0)로 만듭니다.

매주 업데이트되는 RAG 인덱스는 모든 검색 시 최대 7일간의 부패(decay)를 수반합니다. 규제 변경에 관한 질의에서 이는 준수 가능한 답변과 과태료를 물어야 하는 답변 사이의 차이를 만듭니다.

AgentCore 웹 검색이 RAG 및 벡터 데이터베이스 검색과 다른 점

Pinecone 또는 Weaviate 기반의 RAG 파이프라인 (RAG pipeline)과 달리, AgentCore 웹 검색은 추론 시점 (inference time)에 실시간 데이터를 검색합니다. 임베딩 갱신 주기 (embedding refresh cycle)가 필요 없습니다. 조정해야 할 청킹 전략 (chunking strategy)도, 벡터 인덱스 드리프트 (vector index drift)도 없으며, 새벽 3시에 조용히 실패하여 에이전트가 지난 분기 데이터를 바탕으로 답변하게 만드는 인제스션 작업 (ingestion job)도 없습니다. RAG는 '우리가 이미 알고 있는 것이 무엇인가?'라는 질문에 답합니다. 웹 검색은 '지금 현재 사실인 것이 무엇인가?'에 답합니다. 이 둘은 진정으로 다른 작업임에도 불구하고, 대부분의 팀은 이를 하나로 잘못 통합하여 취급합니다. 만약 어떤 것을 사용할지 여전히 고민 중이라면, 당사의 RAG 대 미세 조정(fine-tuning) 분석에서 그 경계를 명확히 구분해 두었습니다.

RAG는 결코 신선도 (freshness)를 위한 솔루션이 아니었습니다. 그것은 신선도 업무를 수행하도록 강제된 검색 (retrieval) 솔루션이었으며, 지식 부패세 (Knowledge Decay Tax)는 그 실수에 대한 청구서입니다.

AWS 공식 발표: 2025년 5월에 변경된 사항

2025년 5월 21일 출시 포스트에서는 명명된 참조 아키텍처 (reference architecture)를 선보였습니다. AgentCore를 Titan 및 Claude 3.5 Sonnet과 결합한 AWS 자체의 비즈니스 인텔리전스 스택은 14단계의 RAG 파이프라인을 3개 노드의 에이전틱 그래프 (agentic graph)로 대체했습니다. 결정적으로, MCP (Model Context Protocol) 통합은 이러한 웹 검색 결과가 LangGraph, AutoGen, CrewAI에서 사용되는 도구 호출 루프 (tool-calling loops)로 직접 전달됨을 의미하며, 오케스트레이션 (orchestration)을 다시 작성할 필요가 없습니다.

23–41%
6개월의 데이터 차단(cutoff)이 있는 에이전트의 시간 민감형 질의에 대한 오류율
[AWS ML Blog, 2025](https://aws.amazon.com/blogs/machine-learning/introducing-web-search-on-amazon-bedrock-agentcore/)
...

Amazon Bedrock AgentCore 웹 검색의 아키텍처: 실제 작동 방식

요청 흐름(request flow)을 이해하는 것은 신뢰할 수 있는 근거(grounding)를 제공하는 에이전트와 매 턴마다 웹 검색을 호출하여 예산을 낭비하는 에이전트를 가르는 차이점입니다. 사용자 질의(user query)와 인용된 응답(cited response) 사이에서 실제로 일어나는 과정은 다음과 같습니다.

요청 흐름: 사용자 질의에서 2초 미만의 근거 기반 응답까지

AgentCore 웹 검색 요청 흐름 (사용자 질의 → 근거 기반 응답)

  1

    **사용자 질의 (User Query) → AgentCore Runtime**

질의가 런타임(runtime)에 진입합니다. 라우터/분류기(router/classifier) 노드가 결정합니다: 이것이 일시적(temporal, 실시간 데이터 필요)인가 아니면 정적(static, 모델 가중치나 RAG로 답변 가능)인가? 이 결정 게이트(decision gate)는 전체 시스템에서 가장 영향력이 큰 비용 제어 요소입니다. 여기서 잘못 결정하면 청구서에서 그 차이를 뼈저리게 느끼게 될 것입니다.

↓

  2
...

만약 일시적(temporal)이라면, 에이전트는 관리형 웹 검색 도구(managed web search tool)를 호출합니다. 이는 세션별로 네트워크가 격리된 샌드박스(sandbox)에서 실행되며, URL, 스니펫(snippet), 신뢰도 신호(confidence signals)가 포함된 구조화된 JSON 형식으로 최대 10개의 결과를 반환합니다. Claude 3.5 Haiku 사용 시 P99 기준 약 1.8초가 소요됩니다.

↓

  3
...

에이전트는 여기서 중복을 제거(dedupe)하고 모순되는 소스를 조정(reconcile)해야 합니다. 이 과정을 생략하면 급변하는 주제에 대해 모순된 결과가 발생하여 환각(hallucination)된 합성 결과가 만들어집니다. 이는 빌더(builder)의 책임이지, 관리형 기본값(managed default)이 아니며 AWS가 대신 처리해 주는 영역도 아닙니다.

↓

  4
...

모델은 검색된 스니펫(snippets)을 바탕으로 답변의 근거를 마련(ground)하고, 인라인 인용(inline citations)과 소스 출처(source provenance)를 포함한 응답을 생성합니다. 이는 컴플라이언스(compliance) 팀이 요구하는 감사 체인(audit chain)입니다.

↓

  5
...

모든 도구 호출(tool call)은 지연 시간(latency), 비용, 소스 메타데이터를 포함한 개별 스팬(span)으로 기록됩니다. 이곳이 바로 남은 지식 감쇠세(Knowledge Decay Tax)를 측정하고 감사인에게 이를 증명하는 지점입니다.

1단계의 라우터 노드가 월 600달러짜리 에이전트와 월 4,000달러짜리 에이전트를 가르는 핵심입니다. 도구 자체보다 시퀀스(sequence)가 더 중요합니다.

보안 및 격리: AWS가 라이브 웹 검색을 샌드박싱하는 방법

AWS는 에이전트 세션별로 네트워크가 격리된 실행 환경 (network-isolated execution environments)을 강제하며, 이는 웹 검색 호출이 세션 컨텍스트 (session context)를 외부로 유출 (exfiltrate)할 수 없음을 의미합니다. 이는 EC2에서 실행되는 자체 호스팅 Playwright 또는 Puppeteer 스크래핑(scraping)과 구별되는 강력한 차별점입니다. 자체 호스팅 환경에서는 침해된 페이지가 프로세스 메모리를 읽을 수 있기 때문입니다. VPC 통합, CloudTrail 감사 로그 (audit logs), 그리고 IAM 정책 강제 (IAM policy enforcement)와 결합된 이 기능은 일반적인 검색 API가 결코 따라올 수 없는 엔터프라이즈 제어 표면 (enterprise control surface)을 제공합니다. 이러한 보안 태세를 공식화하려는 팀을 위해, 당사의 AI 에이전트 보안 가이드는 전체 위협 모델 (threat model)을 매핑하고 있으며, OWASP Top 10 for LLM Applications는 데이터 유출 (data exfiltration)을 에이전트의 최상위 위험 요소로 명시하고 있습니다.

AgentCore Web Search vs AgentCore Browser vs Standard RAG 비교

개발자들이 가장 먼저 실수하는 아키텍처 결정 사항은 다음과 같습니다: 웹 검색 (web search)은 오픈 웹 검색 (open-web retrieval)을 처리하며, 별도의 AgentCore Browser 기능은 양식 제출 (form submission), 로그인 제한 페이지 (login-gated pages), 다단계 탐색 (multi-step navigation)과 같은 전체 DOM 상호작용을 처리합니다. 포털에 로그인하기 위해 웹 검색을 사용하면 실패할 것이며, 최신 사건 쿼리에 답변하기 위해 Browser를 사용하면 비용이 과다하게 발생하고 성능이 과잉될 것입니다.

Architecture comparison of AgentCore web search versus AgentCore Browser versus standard RAG retrieval

잘못된 도구를 선택하는 것이 AgentCore 아키텍처에서 가장 흔히 발생하는 실수입니다. 공개 데이터에는 웹 검색 (web search), 폐쇄형 DOM (gated DOM)에는 브라우저 (Browser), 자체 문서에는 RAG (Retrieval-Augmented Generation)를 사용해야 합니다. 출처

단계별 가이드: AgentCore 웹 검색을 활용한 첫 번째 실시간 AI 에이전트 구축하기

이 섹션은 실무의 핵심입니다. IAM 설정부터 근거가 확실하고 테스트가 완료된 에이전트 구축까지 진행하며, 기존 오케스트레이션 (orchestration) 환경을 떠날 준비가 되지 않은 팀들을 위해 LangGraph와 연결하는 방법까지 다룹니다.

사전 요구 사항: IAM 권한, SDK 버전 및 리전 가용성

boto3 1.34+ 버전과 amazon-bedrock-agentcore SDK가 필요합니다. 2025년 5월 출시 기준으로, 웹 검색은 us-east-1 및 eu-west-1에서만 사용 가능합니다. 이러한 리전 격차는 아일랜드 이외의 지역에서 EU 데이터 거주성 (data-residency) 요구 사항을 충족해야 하는 사용 사례를 제한할 수 있습니다. 로드맵을 약속하기 전에 반드시 확인하십시오. 에이전트의 실행 역할 (execution role)에는 bedrock:InvokeAgent 권한과 더불어 웹 검색 리소스에 범위가 지정된 AgentCore 도구 호출 (tool-invocation) 권한이 필요합니다. 정확한 클라이언트 인터페이스는 boto3 레퍼런스에서 확인할 수 있습니다.

코드 분석: 에이전트 루프에서 네이티브 도구로 웹 검색 활성화하기

Python — boto3 1.34+

# 에이전트 루프에 AgentCore 웹 검색을 네이티브 도구로 등록합니다.

import boto3

agentcore = boto3.client('bedrock-agentcore', region_name='us-east-1')

# 관리형 웹 검색 도구가 활성화된 에이전트를 호출합니다.

response = agentcore.invoke_agent(  
    agentId='YOUR_AGENT_ID',  
    agentAliasId='PROD',  
    sessionId='session-abc-123',  
    inputText='현재 SEC의 암호화폐 ETF 승인에 대한 입장은 무엇인가요?',  
    tools=[{  
        'webSearch': {  
            'maxResults': 10, # 호출당 기본 제한값  
            'returnSourceUrls': True # 인용 체인 (citation chains)을 위해 필수  
        }  
    }]  
)

# 구조화된 근거 (grounding): URL + 스니펫 (snippets) + 신뢰도 신호

for source in response['grounding']['sources']:
    print(source['url'], source['confidence']) # 합성(synthesis) 전 URL 기준으로 중복 제거

maxResults 제한과 returnSourceUrls에 유의하세요. 후자를 활성화하지 않으면 컴플라이언스(compliance) 팀이 인용 체인(citation chain)을 놓치게 됩니다. 이와 같은 기성 패턴(ready-built patterns)은 처음부터 직접 작성하는 대신 저희의 AI 에이전트 라이브러리에서 그대로 복제하여 사용할 수 있는 것들입니다.