AI 기술의 누락된 기본 요소: Bedrock AgentCore Web Search

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 20일

AI 기술에 결정적으로 누락되었던 기본 요소 (primitive)가 추가되었습니다. 하지만 대부분의 팀은 여전히 이 요소가 해결하고자 하는 문제를 중심으로 구축을 이어가고 있습니다. 현대 AI 기술의 가장 큰 실수는 어떤 모델을 호출할지에만 집착하는 것입니다. 정작 진짜 실패는 검색 (retrieval), 추론 (reasoning), 그리고 실행 (action) 사이의 틈새에서 발생합니다. 쿼리가 오래되어 쓸모없게 되거나, 에이전트가 2023년의 가격을 환각 (hallucinate)하여 답변하고, 전체 파이프라인이 조용히 저하되는 지점이 바로 그곳입니다.

AWS는 최근 Amazon Bedrock AgentCore의 Web Search를 출시했습니다. 이는 에이전트가 관리되는 런타임 (runtime) 내에서 실시간 웹 데이터를 가져올 수 있게 해주는 관리형 AI 기술 기본 요소 (primitive)입니다. 이것이 지금 중요한 이유는 LangGraph, CrewAI, AutoGen 기반으로 구축된 프로덕션 에이전트들을 망가뜨리는 '최신성 (freshness) 문제'를 직접적으로 해결하기 때문입니다.

AWS는 에이전트에게 검색창을 준 것이 아닙니다. 그들은 최신성을 인프라 계약 (infrastructure contract)으로 만들었으며, 이는 프로덕션용 AI 기술을 구축하는 방식의 모든 것을 변화시킵니다.

이 가이드를 마칠 때쯤이면, 여러분은 아키텍처 (architecture), 비용 모델 (cost model), 실패 모드 (failure modes), 그리고 에이전트가 구식 정보에 머물지 않도록 실시간 AI 기술을 출시하는 방법을 이해하게 될 것입니다.

Diagram of Amazon Bedrock AgentCore Web Search runtime fetching live web data for an AI agent

Bedrock AgentCore Web Search는 모델과 공개 웹 사이에 관리되는 실시간 검색 레이어 (retrieval layer)를 삽입하며, 이는 대부분의 에이전트 스택 (agentic stacks)에서 누락되었던 조각입니다. 출처

Bedrock AgentCore Web Search가 AI 기술 스택을 변화시키는 방식

핵심 요약 (Key takeaway): Bedrock AgentCore Web Search는 실시간 웹 검색 (live web retrieval)을 오케스트레이션 계층 (orchestration layer)으로 이동시킵니다. 이를 통해 정보의 최신성 (freshness)은 프롬프트 엔지니어링 (prompt-engineering)에 의존하는 희망 사항이 아니라, 관리되고 (governed), 기록되며 (logged), 속도 제한 (rate-limited)이 적용되는 인프라 설정이 됩니다. LangGraph, CrewAI 또는 AutoGen을 기반으로 구축된 모든 에이전트형 AI (agentic AI) 기술 스택에서, 이 기술은 가장 비용이 많이 드는 실패 모드인 시간적 드리프트 (temporal drift)를 해결합니다.

많은 팀이 너무 늦게 깨닫는 숫자가 하나 있습니다. 각 단계의 신뢰도가 97%인 6단계 에이전트 파이프라인 (agentic pipeline)의 경우, 엔드 투 엔드 (end-to-end) 신뢰도는 단 83%에 불과합니다 (0.97^6 = 0.833, 각 단계의 실패가 통계적으로 독립적이라고 가정할 때이며, 이는 직렬 신뢰성 공학 (series reliability engineering)의 표준적인 복합 신뢰성 가정입니다). 여기에 오래된 데이터 (stale-data) 단계가 추가된다고 가정해 보십시오. 단종된 제품을 인용하는 에이전트, 폐기된 API, 혹은 2024년 세율을 말하는 에이전트 말입니다. 신뢰도는 단순히 떨어지는 것에 그치지 않습니다. 어떤 에러 핸들러 (error handler)도 잡아낼 수 없는, 확신에 찬 오답을 생성하게 됩니다.

Amazon Bedrock AgentCore Web Search는 이러한 특정 유형의 실패, 즉 _시간적 드리프트 (temporal drift)_에 대한 AWS의 해답입니다. 이는 모델 컨텍스트 프로토콜 (Model Context Protocol, MCP)과 호환되는 AgentCore Gateway를 통해 제공되는 완전 관리형 도구입니다. 이를 통해 에이전트는 에이전트가 추론하는 것과 동일한 보안 런타임 (secured runtime) 내에서 실시간 검색 쿼리를 실행하고, 출처가 명확한 최신 웹 콘텐츠를 검색할 수 있습니다. 별도의 스크래퍼 (scraper)를 덧붙이거나, 통제되지 않는 외부 HTTP 요청을 보내거나, 별도의 벡터 스토어 (vector store)를 계속 활성화해 둘 필요가 없습니다.

전략적 핵심은 '에이전트가 이제 구글링을 할 수 있다'는 점이 아닙니다. 에이전트는 이전에도 구글링을 서투르게나마 할 수 있었습니다. 핵심은 AWS가 웹 검색 (web retrieval)을 **오케스트레이션 계층 (orchestration layer)**으로 옮겼다는 점입니다. 이제 모든 쿼리는 관리되고, 기록되며, 속도 제한이 적용되고, 특정 ID와 연결됩니다. 이러한 단 한 번의 전환을 통해 최신성 문제는 프롬프트 엔지니어링에 기대는 희망 사항에서, 플랫폼 팀이 책임지는 인프라 문제로 변모합니다.

2026년에 AI 에이전트(AI agents)로 승리하는 기업은 가장 큰 모델을 보유한 기업이 아닙니다. 그들은 에이전트가 '알고 있는 것'과 '지금 현재 사실인 것' 사이의 간극을 메운 기업들입니다. Bedrock AgentCore Web Search는 그 간극을 메우는 과정을 제품화합니다.

이 글에서는 제가 프로덕션 에이전트(production agents)가 실패하는 이유를 진단하기 위해 사용해 온 프레임워크인 **AI 조정 간극 (The AI Coordination Gap)**을 소개합니다. 우리는 이를 명명된 계층(layers)으로 나누고, 각 계층을 구체적인 AgentCore 기능에 매핑하며, 실제 배포 패턴을 보여주고, 에이전트의 신뢰성을 조용히 무너뜨리는 실수들을 짚어보며 마무리할 것입니다. 이 글은 이미 최소 하나 이상의 에이전트를 출시해 보았고, 그것이 프로덕션 환경에서 성능이 저하되는 것을 경험해 본 시니어 엔지니어와 AI 리드들을 위해 작성되었습니다.

명명된 프레임워크

AI 조정 간극 (The AI Coordination Gap)

AI 조정 간극(AI Coordination Gap)은 AI 시스템이 추론할 수 있는 내용과, 현재의 검증되고 관리되는 정보(governed information)를 바탕으로 신뢰성 있게 행동할 수 있는 내용 사이의 측정 가능한 거리입니다. 이는 단일 모델 호출 내부가 아니라, 검색(retrieval), 추론(reasoning), 행동(action), 그리고 최신성(freshness) 사이의 이음새(seams)에서 발생하는 시스템적 실패를 일컫는 용어입니다.

대부분의 팀은 모델에 엔지니어링 역량을 쏟아붓지만, 이 이음새에는 거의 투자하지 않습니다. 이는 주객전도입니다. 모델은 범용화된 상품(commodity)이지만, 조정(coordination)은 해자(moat)가 됩니다.

83%
단계별 신뢰도가 97%인 6단계 파이프라인의 엔드 투 엔드(End-to-end) 신뢰도
[arXiv 복합 오류 분석, 2025](https://arxiv.org/abs/2210.03629)
...

Bedrock AgentCore Web Search란 무엇이며 왜 지금 중요한가?

핵심 요약: Bedrock AgentCore는 Runtime, Memory, Gateway, Identity, 그리고 이제는 Web Search와 같은 모듈형 기본 요소(primitives)로 구축된, 대규모 AI 에이전트 운영을 위한 AWS의 런타임(runtime)입니다. Web Search는 사용자가 스크래핑 스택(scraping stack)을 직접 운영하지 않고도 모든 에이전트에게 실시간의 관리되는 검색(governed retrieval) 기능을 제공합니다. 에이전트 기술의 물결이 2025년 말 최신성 장벽(freshness wall)에 부딪혔기 때문에 지금 이 기능이 중요합니다.

Amazon Bedrock AgentCore는 모듈형 프리미티브 (modular primitives)로 구성되어 있습니다. Runtime은 안전한 실행을 처리합니다. Memory는 단기 및 장기 상태를 관리합니다. Gateway는 API와 도구를 MCP 호환 엔드포인트 (MCP-compatible endpoints)로 변환합니다. Identity는 에이전트별 인증 (auth)을 처리합니다. 그리고 이제 Web Search는 사용자가 스크래핑 스택 (scraping stack)을 직접 운영하지 않고도 모든 에이전트에게 실시간 검색 (live retrieval) 기능을 제공합니다.

왜 지금일까요? 에이전트 기술의 물결이 2025년 말 최신성 장벽 (freshness wall)에 부딪혔기 때문입니다. LangGraph, CrewAI, 그리고 Microsoft AutoGen과 같은 프레임워크들은 다단계 에이전트 (multi-step agents)를 연결하는 것을 매우 쉽게 만들었습니다. 하지만 모든 팀이 동일하게 취약한 웹 페치 레이어 (web-fetch layer)를 독립적으로 다시 구축해야 했습니다. 모든 팀이 속도 제한 (rate limits), 거버넌스 공백 (governance gaps), 그리고 환각된 최신성 (hallucinated freshness)이라는 세 가지 문제에 직면했습니다. AWS는 수천 명의 고객이 동일한 결함 있는 패턴을 배포하는 것을 지켜보았고, 그 해결책을 패키지화했습니다.

당신의 에이전트는 지식의 문제가 있는 것이 아닙니다. 조정 (coordination)의 문제가 있는 것입니다. 사실들은 지금 이 순간 오픈 웹 (open web)에 존재하며, 문제는 당신의 아키텍처가 에이전트가 답변하기 전에 거버넌스 하에서 그 사실들을 가져올 수 있느냐 하는 것입니다.

이것이 실시간 AI 기술과 데모 수준의 기술을 구분 짓는 차이점입니다. 주가를 환각하는 데모 에이전트는 컨퍼런스에서 웃음거리가 되지만, 실제 운영 중인 프로덕션 에이전트가 그런 행동을 하면 컴플라이언스 사고 (compliance incident)를 유발합니다. AgentCore Web Search는 두 번째 시나리오가 기도가 아닌, 인프라 설정 (infrastructure setting)이 되도록 하기 위해 존재합니다. 이것이 더 넓은 계획에 어떻게 부합하는지에 대한 심층적인 내용은 우리의 기업용 AI 전략 (enterprise AI strategy) 가이드를 참조하세요.

Architecture showing Bedrock AgentCore primitives Runtime Memory Gateway Identity and Web Search working together

AgentCore 프리미티브 스택 (primitive stack). Web Search는 MCP 호환 도구로서 Gateway에 연결되며, Identity 및 Runtime 거버넌스 (governance)를 자동으로 상속받아 설계 단계부터 조정 격차 (coordination gap)를 해소합니다. 출처

AI 조정 격차 프레임워크: 에이전트의 출시 여부를 결정짓는 6가지 계층

핵심 요약: AI 조정 격차 (AI Coordination Gap)는 단일 문제가 아니라 신선도 (freshness), 검색 (retrieval), 거버넌스 (governance), 추론 (reasoning), 실행 (action), 관찰 가능성 (observability)이라는 6개의 중첩된 계층입니다. 각 계층은 구체적인 AgentCore 기능과 매핑됩니다. 격차가 어디에 존재하는지 진단하면 무엇을 구축해야 할지 정확히 알 수 있으며, Web Search는 가장 비용이 많이 드는 계층인 시간적 신선도 (temporal freshness)를 해결합니다.

명명된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

이는 추론 능력 (reasoning capability)과 신뢰할 수 있고 최신이며 거버넌스가 적용된 실행 (action) 사이의 거리입니다. 아래의 모든 계층은 그 거리가 벌어지는 지점이며, Web Search는 가장 비용이 많이 드는 계층인 시간적 신선도 (temporal freshness)를 메워줍니다.

계층 1 — 신선도 계층 (Freshness Layer, 시간적 드리프트 (Temporal Drift))

모든 모델에는 지식 컷오프 (knowledge cutoff)가 있습니다. 학습이 끝난 순간부터 세상은 움직이지만 모델은 움직이지 않습니다. 신선도 계층은 '현실이 변했기 때문에 모델이 틀린' 상황이 발생하는 곳입니다: 단종된 제품, 새로운 규제, 오늘의 환율, 한 시간 전 경쟁사의 가격 인하 등이 이에 해당합니다.

이것이 바로 Bedrock AgentCore Web Search가 목표로 하는 계층입니다. 오래된 파라미터 메모리 (parametric memory)나 갱신을 잊어버린 벡터 인덱스 (vector index)에 의존하는 대신, 에이전트는 추론 (inference) 시점에 실시간 쿼리를 실행하고 검색된 타임스탬프가 찍힌 콘텐츠를 바탕으로 답변의 근거를 제시합니다 (grounding). 이로 인해 신선도 격차는 몇 달 전의 데이터에서 몇 초 전의 데이터로 축소됩니다.

갱신 파이프라인 (refresh pipeline)이 없는 벡터 데이터베이스는 그저 더 느린 형태의 노후화된 데이터일 뿐입니다. 만약 RAG 인덱스가 30일 전에 마지막으로 재구축되었다면, 귀하의 '검색 증강 (retrieval-augmented)' 에이전트는 30일 된 사실로 증강하고 있는 것입니다. 실시간 웹 검색은 구조적으로 신선함을 유지하는 유일한 계층입니다.

계층 2 — 검색 계층 (Retrieval Layer, 올바른 소스, 바로 지금)

신선함만으로는 충분하지 않습니다. 반드시 올바른 신선함이어야 합니다. 검색 계층 (Retrieval Layer)은 쿼리 구성 (query formulation), 소스 선택 (source selection), 그리고 결과 순위 지정 (result ranking)에 관한 것입니다. 단순한 에이전트는 잘못된 쿼리를 한 번 실행하고 저품질 결과에 근거 (grounding)를 둡니다. AgentCore Web Search는 에이전트가 추론하고, 인용하며, 거부할 수 있는 구조화되고 출처가 명확한 (attributable) 결과를 반환합니다. 이것이 바로 실시간 검색을 자체 데이터 코퍼스에 대한 RAG (Retrieval-Augmented Generation)와 결합하는 지점입니다. 즉, 공개된 신선함에 프라이빗한 깊이를 더하는 것입니다.

계층 3 — 거버넌스 계층 (Governance Layer: 신원, 감사, 속도 제어)

이 계층은 법무팀이 발견하기 전까지 모든 DIY 스크레이퍼 (scraper)가 무시하는 계층입니다. 거버넌스 계층은 단 한 가지를 묻습니다: 어떤 에이전트가 무엇을, 얼마나 자주 검색할 수 있도록 허용되었는가, 그리고 모든 가져오기 (fetch) 작업이 기록되고 있는가? AgentCore Web Search는 Gateway를 통해 실행되고 AgentCore Identity를 상속받기 때문에, 모든 쿼리는 특정 에이전트 신원 (agent identity)에 귀속되며, 속도 제한 (rate-limited)이 적용되고, 감사가 가능합니다. 거버넌스는 나중에 덧붙이는 것이 아닙니다. 그것은 기본값입니다. 규제 대상 도메인에서 이것이 왜 중요한지는 NIST AI 위험 관리 프레임워크 (NIST AI Risk Management Framework)를 참조하십시오.

연구 단계의 에이전트와 프로덕션 준비가 된 에이전트의 차이는 지능이 아닙니다. 에이전트가 취하는 모든 행동이 기록되고, 신원에 범위가 지정되며, 되돌릴 수 있는지 여부입니다. 거버넌스는 서류 작업이 아닙니다. 그것은 아키텍처입니다.

계층 4 — 추론 계층 (Reasoning Layer: 환각된 확신 없는 합성)

신선하고, 거버넌스가 적용되었으며, 관련 있는 결과가 주어지면, 에이전트는 확신을 과장하지 않고 합성 (synthesize)해야 합니다. 이것이 바로 엔터프라이즈 AI 스택 (enterprise AI stacks)에 대한 모델 선택이 실제로 중요한 지점입니다. Bedrock의 Claude, Nova, 그리고 Llama 변체들은 인용하는 능력과 말을 지어내는 (confabulate) 능력 사이에서 유의미한 차이를 보입니다. 추론 계층은 에이전트가 검색된 스니펫 (snippets)에 근거하여 주장을 펼치고, 소스가 충돌할 때는 답변을 자제하도록 요구해야 합니다. 저는 팀들이 이 단계를 건너뛰고 단 하나의 SEO 스팸 결과로부터 자신 있게 인용하는 에이전트를 출시하는 것을 보아왔습니다. 그러지 마십시오.

계층 5 — 실행 계층 (Action Layer: 루프 닫기)

행동하지 않는 추론은 챗봇에 불과합니다. 실행 계층 (Action Layer)은 결론을 운영으로 전환합니다: CRM 업데이트, 티켓 생성, 주문 접수, 또는 사람에게 알림을 보내는 등의 작업입니다. AgentCore Gateway를 통해, Web Search를 노출하는 것과 동일한 MCP 배관 (plumbing) 구조가 내부 도구들을 노출하므로, 도구마다 별도의 커스텀 통합 (custom integration)을 구축할 필요 없이 검색 결과가 바로 실행으로 이어집니다. 이곳이 바로 멀티 에이전트 시스템 (multi-agent systems)이 협업하는 지점입니다: 리서치 에이전트가 검색하고, 비평 에이전트가 검증하며, 실행 에이전트가 행동합니다.