Amazon Bedrock AgentCore 웹 검색: 프로덕션 AI 에이전트를 망치는 7가지 아키텍처 실수

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2025년 7월 8일

당신의 AI 에이전트가 실패하는 이유는 그것이 멍청해서가 아닙니다. 당신이 에이전트에게 뛰어난 지능과 눈가리개를 동시에 주었기 때문입니다. Amazon Bedrock AgentCore 웹 검색 (web search)은 그 눈가리개를 실제로 제거하는 최초의 AWS 네이티브 도구로, 프로덕션 에이전트가 고정된 학습 데이터셋(training set)에서 추측하는 대신 추론(inference) 시점에 실시간으로 인덱싱된 웹 콘텐츠를 검색할 수 있게 해줍니다.

여기서 중요한 차이점이 있습니다: 이것은 지속적으로 재임베딩(re-embed)해야 하는 벡터 데이터베이스(vector database)에 대한 RAG (Retrieval-Augmented Generation)가 아니며, 오래된 모델 컷오프 (model cutoff) 문제도 아닙니다. AWS는 1억 달러 규모의 에이전트형 AI (agentic AI) 투자와 함께 Amazon Bedrock AgentCore 웹 검색을 일반 가용성 (general availability) 단계로 출시했으며, 이는 엔터프라이즈 에이전트가 프로덕션 환경에서 실패하는 가장 큰 원인인 '오래된 근거 데이터 (outdated grounding)' 문제를 직접적으로 해결합니다. 이 기능은 실재합니다. 하지만 팀들이 실패하는 지점은 바로 이를 둘러싼 아키텍처입니다.

이 가이드를 마칠 때쯤, 여러분은 AgentCore 배포를 조용히 망가뜨리는 7가지 구체적인 아키텍처 실수와 각 실수를 해결할 정확한 설정 패턴을 알게 될 것입니다. 각 실수는 실제 비용 손실을 초래합니다.

Amazon Bedrock AgentCore web search architecture diagram showing live web retrieval feeding into an AI agent reasoning chain

핵심적인 아키텍처 변화: AgentCore 웹 검색은 추론 (inference) 시점에 실시간 타임스탬프가 찍힌 웹 콘텐츠를 에이전트의 추론 체인 (reasoning chain)에 주입하여, 전통적인 RAG 전용 스택이 남겨두는 지식 컷오프 (knowledge-cutoff) 간극을 제거합니다. 출처: AWS Machine Learning Blog, 'Introducing web search on Amazon Bedrock AgentCore' (2025)

저는 세 개의 엔터프라이즈 에이전트가 모든 단일 턴 평가(single-turn eval)를 통과하고도 여전히 사용자를 잃는 것을 목격했습니다. 이는 환각(hallucination) 때문이 아니라, 어제의 진실을 오늘의 현실인 것처럼 자신 있게 보고했기 때문입니다. 아무도 이를 위해 벤치마크를 수행하지 않지만, 결과적으로 비용을 치르게 됩니다.

Amazon Bedrock AgentCore 웹 검색이란 무엇이며 2025년에 왜 중요한가

Amazon Bedrock AgentCore 웹 검색은 AgentCore 런타임(runtime)에서 실행되는 모든 에이전트가 추론(inference) 중에 실시간으로 인덱싱된 웹 콘텐츠를 검색할 수 있도록 해주는, IAM(Identity and Access Management)에 의해 관리되는 도구입니다. 이는 AWS Summit New York 2025에서 1억 달러 규모의 에이전트 AI(agentic AI) 투자와 함께 발표되었습니다. 이것은 프리뷰 콘솔에 숨겨진 베타용 토글이 아닙니다. 핵심 프로덕션 인프라(production infrastructure)로 포지셔닝되어 있으며, AWS는 이를 그에 걸맞게 다루고 있습니다.

AWS Machine Learning 블로그의 출시 포스트인 'Introducing web search on Amazon Bedrock AgentCore' (https://aws.amazon.com/blogs/machine-learning/introducing-web-search-on-amazon-bedrock-agentcore/)에 따르면, 이 도구는 런타임의 기존 IAM, CloudWatch 및 CloudTrail 인터페이스와 직접 통합됩니다. 그 통합이야말로 이 기능의 핵심입니다.

Amazon Bedrock AgentCore 웹 검색이 실제로 메우는 아키텍처 격차

이전의 모든 에이전트 플랫폼은 두 가지 나쁜 선택지 중 하나를 강요했습니다. 모델의 고정된 학습 데이터(frozen training data)에 의존하거나, 제3자 검색 API를 직접 연결하고 인증(auth), 속도 제한(rate limits), 오류 처리(error handling)를 직접 관리해야 했습니다. 저는 두 번째 방식을 해봤습니다. 정말 비참한 경험이었습니다. 추적하기 어려운 방식으로 시스템이 망가지며, 대개 새벽 2시에, 대개 고객 앞에서 발생합니다. AgentCore 웹 검색은 이러한 결정을 런타임 내부의 단일 관리형 API 호출로 통합합니다. 에이전트가 실시간 컨텍스트(context)를 요청하면, 런타임이 이를 가져오고, 범위를 지정(scope)하며, CloudWatch를 통해 로그를 남깁니다.

AgentCore 웹 검색이 RAG, 벡터 데이터베이스(Vector Databases), 브라우저 도구와 다른 점

이 지점에서 대부분의 팀이 혼란을 겪습니다. 자체 코퍼스(Corpus)에서 임베딩한 정적 벡터 데이터베이스(Vector Database)를 쿼리하는 RAG 파이프라인 (RAG pipelines)과 달리, AgentCore 웹 검색은 추론(Inference) 시점에 오픈 웹(Open Web)에서 실시간으로 인덱싱된 콘텐츠를 검색하므로 지식 컷오프(Knowledge-cutoff) 위험을 거의 제로에 가깝게 줄여줍니다. 벡터 데이터베이스가 에이전트에게 '당신의 회사가 무엇을 알고 있는지'를 알려준다면, 웹 검색은 에이전트에게 '세상이 지금 당장 무엇을 알고 있는지'를 알려줍니다. 이 둘은 서로 다른 역할입니다. 이 둘을 혼동하는 것이 아래의 '실수 #1'입니다.

LangChain 및 AutoGen 개발자들이 수년간 수동으로 연결해 온 방식인 브라우저 도구 통합(Browser tool integrations)은 헤드리스 브라우저(Headless browsers), 파싱(Parsing), 콘텐츠 추출(Content extraction)을 직접 관리해야 합니다. AgentCore는 이 모든 것을 추상화(Abstract)합니다. 이는 결코 작은 차이가 아닙니다.

명확한 비교를 하자면: LangGraph의 도구 호출 (LangGraph's tool-calling)은 인증(Auth) 및 재시도 로직(Retry logic)을 포함하여 커스텀 웹 검색 노드를 직접 구축하고 유지 관리해야 합니다. AgentCore는 이를 IAM 조건 키(IAM condition keys)에 의해 제어되는 관리형 API 호출로 단순화하며, 약 300줄 이상의 오케스트레이션(Orchestration) 코드 대신 약 40줄의 설정만으로 가능하게 합니다. 반면, OpenAI의 함수 호출(Function calling)은 스키마(Schema)를 제공하지만, 검색 백엔드, 속도 제한(Rate limiting), 감사 추적(Audit trail)은 여전히 사용자가 직접 관리해야 합니다. 즉, CloudTrail에 상응하는 네이티브 기능이 없습니다.

AgentCore 웹 검색의 프로덕션 준비성(Production Readiness)에서 '일반적으로 사용 가능(Generally Available)'이 의미하는 실제 내용

GA(Generally Available)는 SLA(Service Level Agreements), CloudWatch 메트릭, IAM 거버넌스, 그리고 컴플라이언스(Compliance) 팀이 승인하기 전에 요구하는 CloudTrail 감사 로그를 의미합니다. AWS Bedrock AgentCore 문서에 따르면, Anthropic Claude 3.5 Sonnet과 Amazon Nova Pro는 웹 검색과 결합했을 때 AWS 내부 평가에서 가장 높은 검색 증강 정확도(Retrieval-augmented accuracy)를 보여주었습니다. AWS에서 에이전트형 AI 비즈니스 인텔리전스 (Agentic AI business intelligence)를 구축하고 있다면, 이 두 모델이 기본 선택지가 될 것입니다. 너무 깊게 고민하지 마세요.

$100M
AgentCore와 함께 발표된 AWS 에이전틱 AI (agentic AI) 투자
AWS Machine Learning Blog, 2025
...

실수 #1 — AgentCore 웹 검색을 RAG 대체제로 단순 도입하는 것이 실패하는 이유

가장 비용이 많이 드는 실수는 프로토타이핑 첫 주에 발생합니다. 팀이 웹 검색 기능을 보고 흥분하여, 더 이상 벡터 데이터베이스 (vector database)가 필요 없다고 판단하고 기존의 RAG 파이프라인을 통째로 제거해 버리는 것입니다. 이는 아키텍처 설계상의 과실입니다. 저는 이런 일이 발생하는 것을 한두 번 본 것이 아닙니다.

웹 검색과 RAG가 근본적으로 다른 검색 작업을 수행하는 이유

RAG는 내부 코퍼스 (private corpus), 즉 내부 정책, 제품 문서, 계약서, 조직 지식으로부터 정보를 검색합니다. 반면 웹 검색은 공개된 웹 (open web)에서 정보를 검색합니다. 내부 질의를 위해 RAG를 웹 검색으로 교체하면 두 가지 문제가 동시에 발생합니다. 첫째, 해당 데이터가 공개 웹에 존재하지 않기 때문에 에이전트가 기업 고유 데이터에 관한 질문에 더 이상 답할 수 없게 됩니다. 둘째, 훨씬 더 심각한 문제는 기업의 고유한 질의 패턴이 외부 검색 인덱스 (search indexes)로 유출되기 시작한다는 점입니다.

AWS BI AgentCore 가이드 (2025년 5월)에 요약된 AWS 현장 사례에 따르면, 한 Fortune 500 금융 서비스 기업은 내부 정책 질의에 대해 RAG를 제거하고 웹 검색에만 의존한 후, 환각 (hallucination)으로 표시된 출력값이 34% 증가했다고 보고했습니다. 내부 컴플라이언스 규칙에 대해 질문을 받은 에이전트는 공개 웹을 검색했고, 회사 정책과 일치하지 않지만 그럴듯하게 들리는 규정을 자신 있게 반환했습니다. 아무도 3일 동안 이를 잡아내지 못했습니다. 이를 복구하는 데에는 실제 비용이 발생했습니다.

Twarx가 2025년에 조언한 세 가지 파일럿 프로젝트 중 하나는 내부 컴플라이언스 (Compliance) 모니터링을 위해 AgentCore를 운영하던 미국의 Tier-1 은행이었습니다. 그들은 '단순화 (Simplification)' 스프린트 기간 동안 정확히 이와 같은 교체를 단행했습니다. 이러한 교체를 수행하고 재설계 (Re-architecture) 과정을 건너뛰는 팀들은 첫 달에 평균 6,500달러의 재작업 및 사고 대응 시간 비용을 지출하며, 이는 우리가 세 가지 AgentCore 파일럿 프로젝트 전체에서 확인한 수치입니다. 비용은 단순히 컴퓨팅 (Compute) 자원에 국한되지 않습니다. 엔지니어링 시간(Engineering hours)이 포함되며, 규제 산업 (Regulated vertical)에서는 아무도 계획하지 않았던 컴플라이언스 검토 (Compliance review) 비용까지 발생합니다.

실제로 작동하는 하이브리드 AgentCore 웹 검색 아키텍처

올바른 스택은 명시적인 라우팅 (Routing)과 함께 세 가지 검색 메커니즘을 계층화합니다:

실시간 시장 데이터, 뉴스, 경쟁사 신호, 가격 책정을 위한 AgentCore 웹 검색 (Web search)
기관 지식 및 독점 문서를 위한 프라이빗 벡터 데이터베이스 (Private vector database) (Amazon OpenSearch Serverless 또는 Pinecone)
세션 전반의 도구 오케스트레이션 (Tool orchestration) 상태를 위한 MCP (Model Context Protocol)

결정적인 차이점은 다음과 같습니다: AutoGen과 CrewAI는 모두 하이브리드 검색 (Hybrid retrieval)을 지원하지만, AgentCore가 기본적으로 강제하지 않는 명시적인 도구 우선순위 라우팅 (Tool-priority routing)이 필요합니다. 이것이 바로 소리 없는 실패 지점입니다. 당신의 에이전트는 벡터 스토어 (Vector store)를 조회해야 할 질문에 대해 기꺼이 웹 검색을 호출할 것이며, 잘못된 답변이 전달될 때까지 당신은 그 사실을 알 수 없을 것입니다.

명명된 프레임워크 (Coined Framework)

정체된 컨텍스트 함정 (The Stale Context Trap)

근거가 되는 실시간 웹 검색 없이 구축된 AI 에이전트가 권위 있게 들리지만 시대에 뒤떨어진 출력을 생성하여, 어떤 환각 (Hallucination) 벤치마크로도 측정할 수 없을 만큼 빠르게 사용자 신뢰를 무너뜨리는 복합적인 실패 모드입니다. 이는 명백한 오류가 아니라, 사용자들이 더 이상 용서하지 않게 되는 '조용하고 자신만만한 틀림'을 통해 에이전트 도입을 내부에서부터 파괴합니다.

하이브리드 검색 라우팅: 단일 AgentCore 스택 내의 웹 검색 + RAG + MCP

  1

    **쿼리 분류기 (Query Classifier) (Lambda)**

들어오는 요청이 분류됩니다: 실시간 외부 신호 (real-time external signal), 내부 독점 지식 (internal proprietary knowledge), 또는 오케스트레이션 상태 (orchestration state). 약 80ms의 시간이 추가되지만 지능적으로 경로를 지정합니다.

↓

  2
...

실시간 데이터가 필요한 쿼리에 대해서만 호출됩니다: 시장 가격, 뉴스, 경쟁사 동향 등. 타임스탬프가 찍힌 콘텐츠를 반환합니다. 지연 시간(latency)은 800ms에서 2.4s 사이입니다.

↓

  3
...

RAG (Retrieval-Augmented Generation)를 통한 독점 코퍼스 (proprietary corpus) 검색. 공개된 웹에는 절대 노출되지 않습니다. 200ms 미만의 벡터 쿼리 (vector query) 성능을 보입니다.

↓

  4
...

대화 턴(turn) 전반에 걸쳐 오케스트레이션 컨텍스트 (orchestration context)를 유지하여, 에이전트가 무엇이 어디로부터 이미 검색되었는지 알 수 있게 합니다.

↓

  5
...

모델은 결합된 컨텍스트 (fused context)를 바탕으로 추론합니다. 출력 전, 헌법적 검증 (constitutional check)을 통해 웹 데이터가 내부의 그라운드 트루스 (ground truth)와 일치하는지 확인합니다.

이 시퀀스는 출력을 최신 상태로 유지하면서도 독점 쿼리 유출을 방지합니다. 라우팅 계층 (routing layer)은 대부분의 팀이 건너뛰는 부분이며, 바로 여기서 '오래된 컨텍스트 함정 (Stale Context Trap)'이 시작됩니다.

Hybrid AI agent stack combining AgentCore web search, OpenSearch vector RAG, and MCP orchestration layer

프로덕션급 하이브리드 스택: 웹 검색과 RAG는 상호 보완적이지, 대체 가능한 것이 아닙니다. 웹 검색에만 의존하기 위해 RAG를 제거했을 때, 한 포춘 500대 금융 서비스 기업에서는 환각 (hallucination)이 감지된 출력이 34% 증가했습니다.

실수 #2 — 오래된 컨텍스트 함정은 어떻게 AgentCore 웹 검색 메모리를 오염시키는가?

여기에 아무도 벤치마킹하지 않는 실패 모드(failure mode)가 있습니다. 왜냐하면 이는 단일 턴 평가 (single-turn evals)에서는 나타나지 않기 때문입니다. 이는 에이전트가 가장 큰 가치를 창출하는 지점인, 장기 실행되는 멀티 턴 (multi-turn) 비즈니스 인텔리전스 세션에서만 나타납니다. 이를 발견했을 때는 이미 사용자의 신뢰가 손상된 후일 것입니다.

오래된 컨텍스트 함정이 멀티 턴 에이전트 세션 전반에 걸쳐 심화되는 방식

에이전트가 턴 3(turn 3)에서 웹 검색을 수행하여 주가나 뉴스 헤드라인을 검색하고 이를 세션 메모리(session memory)에 저장한다고 가정해 봅시다. 동일한 대화의 턴 17(turn 17)에 도달했을 때, 에이전트는 해당 웹 페이지의 내용이 몇 시간 전에 이미 변경되었음에도 불구하고, 마치 그것이 여전히 최신 정보인 것처럼 턴 3의 결과를 인용합니다. 사용자는 권위 있고 잘 정돈된 답변을 보게 됩니다. 하지만 그 정보가 6시간이나 지난 낡은 정보라는 사실을 알 방법은 없습니다. 이것이 바로 함정입니다.

에이전트의 가장 치명적인 버그는 틀린 답을 내놓는 것이 아닙니다. 17번째 턴에서 완전한 확신을 가지고 전달하는, 3시간 전의 정답이 바로 그것입니다.