근거 기반 에이전트를 위한 AI 기술: Amazon Bedrock AgentCore Web Search 내부 살펴보기

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 20일

대부분의 AI 기술 워크플로우는 완전히 잘못된 문제를 해결하고 있습니다. 모델의 품질에 집착하는 동안, 에이전트들은 더 이상 존재하지 않는 세상으로부터 답변을 조용히 환각 (Hallucination) 하고 있습니다. 현대 AI 기술에서 가장 어려운 부분은 결코 가공되지 않은 지능 그 자체가 아니었습니다. 그것은 바로 그 지능을 살아있는 상태 유지형 (Stateful) 현실에 연결하는 것이었습니다.

AWS는 방금 Amazon Bedrock AgentCore의 Web Search를 출시했습니다. 이는 사용자가 SERP API, 스크래퍼(Scraper), 속도 제한기(Rate limiter)를 직접 짜 맞출 필요 없이, 에이전트에게 오픈 웹에 대한 실시간적이고 근거 있는 (Grounded) 접근 권한을 부여하는 관리형 프리미티브 (Managed primitive)입니다. 이것이 지금 중요한 이유는 모델의 학습 중단 시점 (Training cutoff)과 현실 사이의 간극이 바로 프로덕션 에이전트가 실패하는 지점이기 때문입니다.

이 글을 읽고 나면 여러분은 AgentCore Web Search를 하나의 시스템으로서, 여러분의 오케스트레이션 스택 (Orchestration stack) 내 어디에 위치하는지, 비용은 얼마인지, 그리고 누구나 처음 겪게 되는 실패 모드 (Failure modes) 없이 어떻게 배포할 수 있는지 이해하게 될 것입니다.

Architecture diagram of Amazon Bedrock AgentCore Web Search connecting an AI agent to live web data

Amazon Bedrock AgentCore Web Search는 에이전트와 라이브 웹 사이에 관리형의 근거 있는 검색 계층 (Grounded retrieval layer)을 삽입하여, 우리가 'AI 조정 격차 (The AI Coordination Gap)'라고 부르는 문제를 해결합니다. 출처

개요: AgentCore Web Search의 실제 정체

정확하게 짚고 넘어갑시다. 이번 출시를 둘러싼 마케팅적 수식어들이 이미 중요한 본질을 가리고 있기 때문입니다. Amazon Bedrock AgentCore Web Search는 Model Context Protocol (MCP)을 통해 에이전트에 노출되는 관리형 도구 프리미티브 (managed tool primitive)입니다. 이는 요청 시 실시간 웹 검색 (web retrieval), 랭킹 (ranking), 콘텐츠 추출 (content extraction)을 수행한 후, 호출한 에이전트에게 근거가 있고 인용 정보가 포함된 컨텍스트 (context)를 반환합니다. AWS가 정의한 내용은 AgentCore 개발자 가이드에서 확인할 수 있습니다.

단순하게 읽자면 '좋네, AWS가 검색 도구를 만들었구나'라고 생각할 수 있습니다. 하지만 이는 핵심을 완전히 놓친 것입니다. 에이전트에게 웹 접근 권한을 부여할 때 어려운 점은 검색 쿼리 (search query) 자체가 아니었습니다. 진짜 문제는 '조율 (coordination)'이었습니다. 동시적인 에이전트 호출에 따른 속도 제한 (rate limits) 관리, 검색된 콘텐츠의 중복 제거, 최신성 윈도우 (freshness windows) 강제, 지능적인 캐싱 (caching), 컴플라이언스를 위한 출처 귀속 (attributing sources), 그리고 이 모든 과정을 이미 엄격한 지연 시간 (latency) 예산 내에서 작동하는 에이전트 루프 (agent loop) 내부에서 수행하는 일 말입니다. 바로 이 부분이 엔지니어링 시간을 엄청나게 잡아먹는 지점입니다.

대부분의 팀이 바로 이 지점에서 수많은 시간을 허비해 왔습니다. 이들은 LangGraph 노드에 SERP API를 덧붙여 출시한 뒤, 3주 후에 다음과 같은 사실을 깨닫게 됩니다. 응답의 22%가 404 오류가 발생하는 페이지를 인용하고 있고, 원시 HTML을 컨텍스트 윈도우 (context windows)에 쏟아부으면서 토큰 비용이 3배로 뛰었으며, 에이전트가 가끔 2019년의 캐시된 결과를 가져와 오늘날의 뉴스인 것처럼 제시한다는 사실입니다. 저는 이런 일이 일어나는 것을 한두 번 본 것이 아닙니다. 항상 똑같은 순서로 진행됩니다: 자신만만한 데모, 그리고 조용한 운영 환경의 재앙.

Coined Framework (명명된 프레임워크)

AI 조율 격차 (The AI Coordination Gap)

AI 조율 격차 (AI Coordination Gap)는 모델의 성능이 낮아서 발생하는 것이 아니라, 에이전트의 추론 루프 (reasoning loop)와 에이전트가 의존하는 실시간의 상태 유지형(stateful) 및 속도 제한이 걸린 외부 시스템 사이의 관리되지 않는 접점(unmanaged seams)에서 발생하는 시스템적 실패를 의미합니다. 이는 개별적으로는 매우 뛰어난 컴포넌트들의 스택이 왜 신뢰할 수 없는 전체를 만들어내는지에 대한 이유를 설명합니다.

AgentCore Web Search는 AWS가 그 격차의 한 부분인 웹 검색 (web-retrieval) 영역을 관리형 서비스 (managed service)로 메우려는 시도입니다. 이를 통해 여러분은 매 프로젝트마다 동일하고 취약한 파이프라인 (plumbing)을 다시 구축할 필요가 없습니다.

기본적으로 제공되는 기능은 다음과 같습니다: 완전히 관리되는 검색 및 추출 파이프라인 (search-and-extract pipeline), 모든 MCP 호환 에이전트 (Claude, Anthropic SDK, CrewAI, AutoGen)가 호출할 수 있는 네이티브 MCP 노출, 자동 출처 표기 (source attribution), 내장된 캐싱 (caching) 및 최신성 제어 (freshness controls), 그리고 보안 문제로 출시가 거부되지 않도록 하는 IAM 기반 액세스 제어입니다. 이는 검색 워크로드 (retrieval workloads)를 위한 프로덕션 준비가 된 상태입니다. 다만, 관련성 순위 지정 (relevance ranking)은 아직 심층적인 도메인 수직 시장 (domain verticals)이 아닌 일반적인 쿼리에 맞춰 조정되어 있으며, 이는 실질적인 제한 사항입니다.

여기서의 전략적 신호는 다음과 같습니다: AWS는 에이전트 인프라를 스토리지나 컴퓨팅이 기본 요소 (primitives)가 된 것과 마찬가지로 하나의 기본 계층 (primitive layer)으로 취급하고 있습니다. 여러분은 자신만의 S3를 구축하지 않습니다. 주의를 기울이고 있다면, 에이전트를 위한 웹 검색 계층 (web-retrieval-for-agents layer) 또한 직접 구축하지 않을 것입니다. 이를 조기에 내재화하는 팀은 더 빠르게 제품을 출시하고 비용을 적게 쓸 것입니다. 계속해서 직접 구현 (hand-rolling)하는 팀은 기능을 출시하는 대신 2026년에 파이프라인을 유지보수하는 데 시간을 보낼 것입니다.

2026년에 AI 기술로 승리하는 기업은 최고의 모델을 가진 기업이 아닙니다. 에이전트와 현실 사이의 조정 계층 (coordination layer)을 직접 만드는 것을 멈춘 기업들입니다.

실시간 근거 제시 (Real-Time Grounding)가 데모와 제품의 차이를 만드는 이유

여러분이 본 모든 인상적인 에이전트 데모는 정적 지식 (static knowledge)을 기반으로 작동합니다. 실제 사용자와 접촉하며 살아남는 모든 에이전트는 라이브 데이터 (live data)가 필요합니다. 이 두 상태 사이의 격차는 엄청나며, 이는 지능의 문제가 아니라 거의 전적으로 조정 (coordination)의 문제입니다.

정보의 노후화(staleness)가 실제로 어떤 비용을 초래하는지 생각해 보십시오. 2025년 말까지의 학습 데이터 컷오프(training cutoff)를 가진 모델이 2026년 2분기 실적, 규제 변화, 또는 제품 가용성에 대해 자신 있게 답변한다면, 이는 단순히 '약간 틀린' 것이 아닙니다. 이는 권위 있게 틀린(authoritatively wrong) 것이며, 이는 훨씬 더 심각합니다. 권위 있는 오답은 기업용 AI에서 가장 비용이 많이 드는 단일 실패 모드(failure mode)입니다. 왜냐하면 이는 눈에 보이는 오류보다 더 빠르게 신뢰를 무너뜨리기 때문입니다. 눈에 보이는 오류는 수정됩니다. 하지만 자신만만한 허구(fabrication)는 그대로 전달됩니다. 더 광범위한 환각(hallucination) 문제는 ACM의 LLM 환각에 관한 조사 연구에 잘 기록되어 있습니다.

83%
각 단계의 신뢰도가 97%인 6단계 파이프라인의 신뢰도
[arXiv 복합 오류 분석, 2025](https://arxiv.org/)
...

저 첫 번째 숫자는 잠시 멈춰서 생각해 볼 가치가 있습니다. 질의 이해(query understanding), 검색(retrieval), 순위 지정(ranking), 추출(extraction), 합성(synthesis), 형식 지정(formatting)으로 구성된 6단계 에이전트 파이프라인에서, 개별 단계가 모두 97%의 신뢰도를 갖더라도 전체 엔드 투 엔드(end-to-end) 신뢰도는 단 **83%**에 불과합니다 ($0.97^6$). 대부분의 기업은 제품을 출시한 후, 고객이 자신만만하게 지어낸 답변을 스크린샷으로 찍어 보낸 뒤에야 이 사실을 깨닫습니다. AgentCore Web Search는 단일 단계를 완벽하게 만들지는 않지만, 그중 세 단계(검색, 순위 지정, 추출)를 하나의 관리되고 테스트된 프리미티브(primitive)로 통합합니다. 이는 수학적으로 복합 신뢰도 곡선(compounding reliability curve)을 수용 가능한 수준으로 끌어올립니다.

에이전트 시스템에서 신뢰도를 높이는 가장 큰 승리는 더 나은 모델을 사용하는 것이 아니라, 루프 내의 독립적인 실패 지점(failure points)의 수를 줄이는 것입니다. AgentCore는 취약한 3단계를 1개의 관리된 프리미티브로 통합하며, 이것이 바로 팀들이 엔드 투 엔드 신뢰도에서 약 15%포인트의 향상을 보고하는 이유입니다.

에이전트를 위한 웹 검색에 대해 대부분의 사람들이 잘못 알고 있는 것

지배적인 오해는 '웹 검색은 이미 해결된 문제이니, 그냥 API를 호출하면 된다'는 것입니다. 이는 S3가 나오기 전 '스토리지(storage)는 이미 해결된 문제이니, 그냥 디스크에 파일을 쓰면 된다'라고 말하던 방식과 같습니다. API 호출 자체는 사소합니다. 하지만 그 주변 시스템 — 동시성 (concurrency), 캐싱 (caching), 최신성 (freshness), 출처 표기 (attribution), 비용 거버넌스 (cost governance), 장애 조치 (failover) — 이 영역에 작업의 90%가 집중되어 있으며, 프로덕션 장애의 100%가 여기서 발생합니다.

두 번째 오해는 더 많은 검색 콘텐츠를 가져올수록 더 좋다는 것입니다. 그렇지 않습니다. 10개의 전체 웹 페이지를 컨텍스트 윈도우 (context window)에 쏟아붓는 것은 추론 능력을 저하시키고, 토큰 비용을 부풀리며, 모델이 무관한 구절에 집착할 확률을 높입니다. 이러한 '중간에서 길을 잃는 (lost in the middle)' 효과는 Stanford의 긴 컨텍스트 저하에 관한 연구에 기록되어 있습니다. 근거 기반 검색 (Grounded retrieval)은 양이 아니라 '정밀도 (precision)'의 문제입니다. AgentCore의 추출 레이어 (extraction layer)가 중요한 이유는 바로 원본 데이터를 그대로 쏟아내는 것이 아니라 관련 구절만을 반환하기 때문입니다.

Comparison of agent reliability with and without managed grounded web retrieval layer

검색 (retrieval), 순위 지정 (ranking), 추출 (extraction) 단계가 하나의 관리형 프리미티브 (managed primitive)로 통합될 때, 다단계 에이전트 루프 (multi-step agent loop)의 엔드 투 엔드 신뢰도는 급격히 향상됩니다. 이것이 바로 'AI 조정 격차 (The AI Coordination Gap)'를 해소하는 핵심입니다.

AgentCore 웹 검색의 5개 레이어 (프레임워크)

이 기능을 제대로 사용하려면, 이를 각각 'AI 조정 격차 (The AI Coordination Gap)'의 특정 부분을 메우는 다섯 가지 별개의 레이어로 이해해야 합니다. 각 레이어가 무엇을 하는지, 프로덕션 환경에서 어떻게 작동하는지, 그리고 주의를 기울이지 않을 때 어디서 문제가 발생하는지 설명하겠습니다.

명명된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap)

웹 검색에 적용했을 때, 조정 격차 (Coordination Gap)란 에이전트의 추론과 라이브 웹 사이의 관리되지 않는 이음새들 — 동시성 (concurrency), 최신성 (freshness), 출처 표기 (attribution), 비용 (cost) — 을 의미합니다. AgentCore의 다섯 가지 레이어는 각각 하나의 이음새를 봉쇄합니다.

레이어 1: MCP 호출 경계 (The MCP Invocation Boundary)

진입점입니다. AgentCore Web Search는 MCP 도구 (tool)로 노출됩니다. 이는 에이전트가 HTTP 엔드포인트를 직접 호출하는 것이 아니라, 검색 의도 (intent)를 선언하면 MCP 런타임 (runtime)이 핸드셰이크 (handshake), 스키마 검증 (schema validation), 그리고 도구 라우팅 (tool routing)을 처리함을 의미합니다. 이 레이어는 코드 재작성 없이 LangGraph, CrewAI, AutoGen, 그리고 Bedrock 네이티브 에이전트 런타임 전반에 걸쳐 서비스를 이식 가능하게 만드는 계층입니다. 전체 핸드셰이크는 MCP 명세 (specification)에 정의되어 있습니다.

실제 적용 시: 도구를 한 번만 등록하면, MCP 호환 오케스트레이터 (orchestrator)라면 무엇이든 이를 호출할 수 있습니다. MCP 경계에서의 지연 시간 (latency) 오버헤드는 한 자릿수 밀리초 (milliseconds) 단위로 매우 작지만, 분명히 존재합니다. 턴 (turn)당 많은 도구 호출을 체이닝 (chaining)한다면 이를 예산에 반영하십시오.

레이어 2: 쿼리 재구성 엔진 (The Query Reformulation Engine)

가공되지 않은 에이전트의 의도는 끔찍한 검색 쿼리 (search query)가 됩니다. 'EU AI 법(EU AI Act) 집행 일정에 대한 최신 정보가 필요해'라고 생각하는 에이전트는 유용한 결과가 나오기 전에 정밀하고 웹에 최적화된 쿼리로 변환되어야 합니다. 이 레이어는 해당 재구성 (reformulation)을 처리하며, 복잡한 의도의 경우 여러 개의 하위 쿼리 (sub-queries)로 확장 (fan out)될 수 있습니다.

실무상의 주의점: 재구성은 불투명합니다. 당신의 의도가 어떻게 쿼리로 변했는지 완전히 파악할 수 없으며, 이는 '왜 이것을 검색했는가?'에 대한 디버깅 (debugging)을 진정으로 고통스럽게 만듭니다. 첫날부터 재구성된 쿼리를 로그 (log)로 남기십시오. AWS는 호출 추적 (invocation trace)에서 이를 노출하지만, 사용자가 능동적으로 캡처해야 합니다. 저희도 이를 표준 관행으로 만들기 전까지 이 문제로 수차례의 디버깅 세션을 허비했습니다.

레이어 3: 랭킹 및 최신성 필터 (The Ranking and Freshness Filter)

이곳은 설정을 올바르게 했다면 정보의 노후화 (staleness)가 사라지는 지점입니다. 이 레이어는 구성 가능한 최신성 윈도우 (freshness windows)를 사용하여 관련성 (relevance)과 최신성 (recency) 모두를 기준으로 후보 결과의 순위를 매깁니다. 뉴스 에이전트는 24시간 윈도우를 원할 것이고, 문서화 에이전트는 90일을 원할 수도 있습니다. 변하지 않는 사실 (Evergreen facts)의 경우 윈도우를 전혀 두지 않습니다. 이를 잘못 설정하는 것은 제가 팀들이 배포하는 제품에서 본, 미묘하게 틀린 답변이 발생하는 가장 흔한 원인입니다.

신선도 윈도우 (freshness window)는 AgentCore에서 가장 과소평가된 설정입니다. 이 범위를 너무 넓게 설정하면 에이전트가 오래된 데이터를 인용하게 되고, 너무 좁게 설정하면 변화가 느린 주제에 대해 아무런 결과도 반환하지 않습니다. 이를 전역적으로 설정하지 말고 에이전트별로 튜닝하십시오. 저는 단 하나의 전역 설정이 동일한 제품 내에서 두 가지 실패 모드(failure modes)를 모두 유발하는 것을 목격했습니다.

레이어 4: 추출 및 그라운딩 레이어 (The Extraction and Grounding Layer)

이 레이어는 가공되지 않은 HTML이나 전체 페이지를 반환하는 대신, 관련 구절을 추출하고 소스 메타데이터를 부착합니다. 이것이 토큰 비용을 합리적으로 유지하고 RAG-스타일의 그라운딩 (grounding)을 견고하게 유지하는 비결입니다. 반환되는 각 구절에는 소스 URL이 포함되어 있습니다. 이는 '내가 지어낸 말이다'라는 답변이 용납되지 않는, 규제가 엄격하거나 고객을 대상으로 하는 모든 배포 환경에서 매우 중요합니다. 이 그라운딩 패턴은 Facebook AI Research의 원본 RAG 논문을 반영합니다.