실시간 에이전트를 위한 AI 기술: Bedrock AgentCore 웹 검색 완전 가이드

원문은 twarx.com에서 처음 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 19일

대부분의 AI 기술 워크플로우 (workflows)는 완전히 잘못된 문제를 해결하고 있습니다. 사람들은 모델 품질에 집착하지만, 정작 진짜 병목 현상인 — 에이전트가 추론하는 바로 그 순간에 신선하고 근거가 확실한 실시간 정보를 에이전트에게 전달하는 문제 — 는 해결되지 않은 채 남아 있습니다. 세계 최고의 AI 기술 스택 (technology stack)이라 할지라도, 오래된 데이터를 바탕으로 추론하는 에이전트를 구할 수는 없습니다.

AWS는 최근 Amazon Bedrock AgentCore의 웹 검색 (Web Search on Amazon Bedrock AgentCore)을 출시했습니다. 이는 스크레이퍼 (scrapers), 속도 제한기 (rate limiters), 그리고 랭킹 레이어 (ranking layers)를 직접 하나하나 연결할 필요 없이, 에이전트에게 공개된 웹에 대한 실시간 접근 권한을 부여하는 관리형 AI 기술 도구입니다. 이것이 지금 중요한 이유는, '알고 있는' 모델과 '현재의 현실에 따라 행동하는' 에이전트 사이의 격차가 방금 더 좁혀졌기 때문입니다.

이 글을 읽고 나면 여러분은 아키텍처 (architecture), 실패 모드 (failure modes), 그리고 어제의 주가를 환각 (hallucinate)하지 않는 프로덕션용 실시간 에이전트를 출시하는 방법을 이해하게 될 것입니다.

Amazon Bedrock AgentCore Web Search architecture connecting an AI agent to live web results

Bedrock AgentCore 웹 검색은 에이전트의 추론 루프 (reasoning loop)와 공개 웹 사이에 관리형 검색 레이어 (managed retrieval layer)를 삽입하여, 우리가 'AI 조정 격차 (AI Coordination Gap)'라고 부르는 문제를 해결합니다. 출처

개요: Bedrock AgentCore 웹 검색이란 정확히 무엇인가

시니어 엔지니어들이 계속해서 다시 배우게 되는 직관에 반하는 진실이 있습니다. 에이전트 시스템 (agentic systems)의 제한 요인은 모델인 경우가 거의 없으며, 모델의 추론 (reasoning)과 모델에 근거 정보 (ground truth)를 제공하는 시스템 간의 조정 (coordination)입니다. 오늘의 데이터를 볼 수 없는 프런티어 모델 (frontier model)은 작년의 데이터를 기억하는 매우 값비싼 메모리에 불과합니다.

Amazon Bedrock AgentCore는 대규모 AI 에이전트를 구축, 배포 및 운영하기 위한 AWS의 관리형 런타임 (managed runtime)입니다. 새로운 웹 검색 (Web Search) 기능은 해당 런타임 내부의 퍼스트 파티 (first-party) 도구입니다. 즉, 에이전트가 쿼리를 발행하면 AgentCore가 검색을 수행하고, 결과를 순위 매겨 구조화된 형태로 반환하며, 모델은 실시간 웹 콘텐츠를 바탕으로 추론을 근거화 (grounding)합니다. 별도의 커스텀 스크래핑 (scraping) 인프라가 필요 없습니다. 별도의 검색 API 계약을 관리할 필요도 없습니다. 자체적인 중복 제거 (deduplication) 및 최신성 (freshness) 로직을 구축할 필요도 없습니다.

이것이 중요한 이유는 지금까지 프로덕션 에이전트 (production agents)를 위한 실시간 근거화 (real-time grounding)를 구현하려면 다음 세 가지 고통스러운 경로 중 하나를 선택해야 했기 때문입니다. 첫째, 제3자 검색 API (SerpAPI, Tavily, Brave)를 별도로 연결하고 그 할당량 (quota)과 비용을 따로 관리하거나, 둘째, 자체 크롤러 (crawler)를 구축하여 robots.txt, 속도 제한 (rate limits), 파싱 (parsing) 지옥과 싸우거나, 셋째, 오래된 지식 차단 (knowledge cutoff) 시점을 수용하고 아무도 최근의 것에 대해 묻지 않기를 바라는 것입니다. AgentCore Web Search는 이러한 선택지들을 여러분의 나머지 AWS 스택과 동일한 IAM, 관측성 (observability) 및 런타임 환경 내에 존재하는 관리형 프리미티브 (managed primitive)로 통합합니다.

1월의 지식 차단 (knowledge cutoff)을 가진 모델이 6월의 질문에 답한다면, 시간에 민감한 모든 질문에 대해 거의 100% 확률로 틀린 답을 내놓게 됩니다. 그럼에도 불구하고 프로덕션 에이전트의 60% 이상이 여전히 실시간 근거화 (real-time grounding) 레이어 없이 출시되고 있습니다. Web Search는 바로 이러한 실패 모드 (failure mode)를 제거하기 위해 존재합니다.

작동 방식이 중요합니다. AgentCore Web Search는 에이전트의 도구 사용 루프 (tool-use loop)와 통합되도록 설계되었습니다. 모델이 언제 검색할지 결정하면 (도구 선택, tool selection), AgentCore가 검색 (retrieval)을 실행하고, 그 결과는 구조화되고 출처가 명시된 증거로서 컨텍스트 윈도우 (context window)로 다시 들어옵니다. Bedrock 내부에서 실행되기 때문에, 콘텐츠 필터링을 위한 Guardrails, 관찰 가능성 (observability)을 위한 CloudWatch, 그리고 상태 유지 및 인증된 세션을 위한 AgentCore Memory 및 Identity 프리미티브 (primitives)를 그대로 상속받습니다. 이것이 데모와 실제 배포의 차이입니다. 검색 도구는 독립적인 API 호출이 아니라, 감사 가능한 에이전트 런타임 (agent runtime) 내의 관리되는 단계입니다.

또한 이는 더 넓은 상호 운용성 (interoperability) 이야기에도 자연스럽게 맞물립니다. AgentCore는 Model Context Protocol (MCP) 스타일의 도구 노출을 지원하므로, Web Search를 LangGraph, CrewAI 또는 Strands와 같은 프레임워크로 구축된 에이전트에 제공할 수 있습니다. 단일 에이전트 SDK에 종속되지 않고, 신흥 표준을 따르는 런타임에 결합되는 것입니다. 이미 멀티 에이전트 시스템 (multi-agent systems)에 투자하고 있는 시니어 팀에게는 이러한 이식성 (portability)이야말로 진정한 핵심 뉴스입니다.

이 가이드에서는 제가 **AI 조정 격차 (The AI Coordination Gap)**라고 부르는 프레임워크를 소개하고, 이를 명명된 레이어 (layers)로 나누며, AgentCore Web Search가 각 격차를 어떻게 메우는지 보여줄 것입니다. 또한 비용 수치를 포함한 실제 배포 패턴을 살펴보고, 현재 모든 AI 리더들이 구글에서 검색하고 있는 7가지 질문으로 마무리하겠습니다.

정립된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (The AI Coordination Gap)는 모델의 추론 능력 (reasoning capability)과, 정확하고 최신이며 실행 가능한 답변을 생성하기 위해 조정해야 하는 라이브 시스템, 데이터 및 도구 사이의 구조적 거리입니다. 이것이 에이전트가 프로덕션 환경에서 실패하는 진짜 이유입니다. 원시 지능 (raw intelligence)의 문제가 아니라, 사고 (thinking)와 근거 제시 (grounding) 사이의 깨진 조정 (coordination) 때문입니다.

AI 조정 격차가 진짜 문제인 이유

대부분의 사람들이 무엇을 잘못 알고 있는지 솔직하게 말씀드리겠습니다. 업계는 모델 리더보드(leaderboards), 즉 특정 벤치마크에서 어떤 LLM이 점수가 2점 더 높은지에만 주의력을 쏟습니다. 하지만 실제 운영(production) 환경에서 제대로 작동하는 에이전트와 형편없는 에이전트 사이의 차이는 거의 모델 때문이 아닙니다. 그것은 바로 조정 (coordination) 때문입니다.

AI 에이전트로 승리하는 기업은 가장 똑똑한 모델을 가진 기업이 아닙니다. 추론 (reasoning)과 현실 사이의 조정 격차 (coordination gap)를 메운 기업들입니다.

각 단계의 신뢰도가 97%인 6단계 에이전트 파이프라인 (agentic pipeline)을 가정해 봅시다. 엔드 투 엔드 (end-to-end)로 볼 때, 해당 파이프라인의 신뢰도는 단 83%에 불과합니다 — 0.97의 6제곱입니다. 대부분의 팀은 제품을 출시한 후에야 이 수학적 사실을 깨닫게 됩니다. 신뢰할 수 없는 결과가 나오는 이유는 모델이 멍청해서인 경우가 드뭅니다. 그것은 조정 실패 (coordination failures)에서 비롯됩니다: 오래된 데이터 (stale data), 타임아웃이 발생한 도구 (tool), 중복 제거되지 않은 검색 결과, 인용 (citation)을 놓쳐버린 컨텍스트 윈도우 (context window) 등입니다. 이 모든 것들은 지능의 격차가 아니라 조정의 격차입니다.

83%
각 단계가 97% 신뢰할 수 있는 6단계 파이프라인의 엔드 투 엔드 신뢰도
[에이전트 파이프라인에서의 복합 오류, arXiv](https://arxiv.org/abs/2304.03442)
...

이것이 바로 AgentCore 웹 검색 (Web Search)이 겉보기보다 더 중요한 이유입니다. 이것은 단순한 기능이 아닙니다. 조정 격차의 특정 계층, 즉 최신성 계층 (freshness layer)을 공략하는 것입니다. 이것이 어디에 위치하는지 이해하려면, 전체 격차가 여러 계층으로 분해되는 것을 보아야 합니다. AWS는 Bedrock 개발자 문서에 전체 런타임 (runtime)을 기록하고 있습니다.

Diagram showing the four layers of the AI Coordination Gap in production agent systems

분해된 AI 조정 격차: 최신성 (freshness), 근거 제시 (grounding), 도구 오케스트레이션 (tool orchestration), 그리고 신뢰 (trust). 웹 검색은 앞의 두 가지를 직접적으로 겨냥합니다. 출처

AI 조정 격차의 4가지 계층

저는 AI 조정 격차 (AI Coordination Gap)를 명명된 4개의 계층으로 나눕니다. 각 계층은 에이전트가 조용히 실패하는 지점이며, 각 계층은 특정 AgentCore 기능과 매핑됩니다.

계층 1: 신선도 계층 (The Freshness Layer)

이것은 모델이 학습된 내용과 현재 시점에서 사실인 것 사이의 격차입니다. 1월의 데이터 컷오프 (cutoff) 시점에 고정된 모델은 5월에 출시된 제품에 대해 말할 수 없습니다. 신선도 계층은 실시간 검색 (real-time retrieval)을 통해 메워지며, 이것이 바로 웹 검색 (Web Search)이 수행하는 역할입니다. 에이전트가 쿼리가 최신 정보를 필요로 한다고 인식하면 검색을 트리거하며, AgentCore는 순위가 매겨진 최신 결과를 반환하여 이를 추론 컨텍스트 (reasoning context)에 다시 삽입합니다.

신선도 문제는 더 큰 모델을 사용하거나 더 빈번한 미세 조정 (fine-tuning)을 수행한다고 해서 해결되지 않습니다. 프런티어 모델 (frontier model)을 재학습시키는 데는 수백만 달러가 들며, 배포되는 날에도 여전히 과거의 정보일 뿐입니다. 반면 검색 호출은 1센트의 아주 작은 일부 비용만 들며 분 단위로 최신 상태를 유지합니다. 이러한 경제적 비대칭성 때문에 시간 민감형 지식에 대해서는 검색이 재학습보다 항상 우위에 있습니다.

계층 2: 근거 계층 (The Grounding Layer)

신선도가 최신 데이터를 가져다준다면, 근거 (grounding)는 모델이 데이터를 바탕으로 환각 (confabulating)을 일으키는 대신 데이터를 제대로 _사용_하도록 보장합니다. 근거 계층은 출처 표기 (attribution)와 증거 규율에 관한 것입니다. 즉, 에이전트가 가져온 특정 출처를 인용하게 만들고, 주장을 뒷받침할 증거가 없을 때는 답변을 거부하게 만드는 것입니다. AgentCore 웹 검색은 소스 URL이 포함된 구조화된 결과를 반환하며, 이를 통해 '인용 없이는 주장도 없다'는 근거 계약 (grounding contract)을 강제할 수 있습니다. 이는 개념적으로 RAG (검색 증강 생성, Retrieval-Augmented Generation)와 유사하지만, 프라이빗 벡터 인덱스 (private vector index)가 아닌 라이브 웹을 대상으로 한다는 점이 다릅니다. 이 아이디어의 기원은 기초 RAG 연구로 거슬러 올라갑니다.

명명된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

그라운딩 계층 (Grounding Layer) 내에서, AI 조정 격차 (The AI Coordination Gap)는 사실을 검색하는 것과 이를 충실히 출처와 연결하는 것 사이의 거리로 나타납니다. 이 격차를 해소한다는 것은 생성된 모든 주장이 반환된 소스로부터 추적되도록 강제하는 것을 의미하며, 이를 통해 에이전트를 '자신감 있게 추측하는 자'에서 '책임감 있는 연구자'로 변화시킵니다.

레이어 3: 도구 오케스트레이션 계층 (The Tool Orchestration Layer)

실제 에이전트는 검색, 코드 실행, 내부 API, 벡터 조회 (vector lookups) 등 수많은 도구를 사용합니다. 도구 오케스트레이션 계층 (The Tool Orchestration Layer)은 어떤 도구를 호출할지, 언제 호출할지, 그리고 그 출력물들을 어떻게 조합할지에 대한 조정 역할을 합니다. AgentCore는 웹 검색 (Web Search)이 MCP 호환 인터페이스를 통해 노출되는, 관리되는 여러 도구 중 하나인 런타임 (runtime)을 제공합니다. 모델의 도구 선택 (tool-selection) 단계는 쿼리가 오픈 웹 (open web)을 필요로 하는지, 내부 지식 베이스 (internal knowledge base)를 필요로 하는지, 아니면 계산 (calculation)을 필요로 하는지를 결정합니다. 이 단계에서 오류가 발생하면 에이전트는 내부에서 찾아봐야 할 내용을 웹에서 검색하거나, 반대로 웹에서 찾아야 할 내용을 내부에서 찾는 실수를 범하게 됩니다. 바로 이 지점에서 LangGraph 및 AutoGen과 같은 프레임워크가 도구 시퀀싱 (tool sequencing)을 결정하는 제어 흐름 (control flow)을 표현하며 그 가치를 증명합니다.

레이어 4: 신뢰 계층 (The Trust Layer)

마지막 계층은 거버넌스 (governance)입니다: 신원 (identity), 가드레일 (guardrails), 관찰 가능성 (observability), 그리고 감사 가능성 (auditability)이 여기에 해당합니다. 웹을 검색하는 에이전트는 적대적 콘텐츠 (adversarial content)에 의해 유도될 수 있고, 안전하지 않은 자료를 노출하거나, 쿼리를 통해 데이터를 유출할 수도 있습니다. AgentCore는 웹 검색을 Bedrock Guardrails, 인증된 세션을 위한 AgentCore Identity, 그리고 모든 도구 호출에 대한 CloudWatch traces로 감쌉니다. 규제 환경에서 신뢰 계층 (The Trust Layer)은 파일럿 단계와 실제 운영 (production rollout) 단계를 가르는 차이점입니다. 이는 대부분의 데모가 생략하지만 대부분의 기업이 요구하는 계층이며, NIST AI Risk Management Framework의 원칙과도 일치합니다.

조정 격차 (coordination gap)를 남겨둔 모든 계층은 다음 계층으로 배가되어 전달됩니다. 그라운딩 (grounded)되지 않은 새로운 사실은 그저 최근의 타임스탬프가 찍힌 자신감 넘치는 거짓말일 뿐입니다.

프로덕션 환경에서 Bedrock AgentCore 웹 검색 요청이 흐르는 방식

  1

    **사용자 쿼리가 AgentCore Runtime에 진입**

요청이 관리형 AgentCore 에이전트에 도달합니다. AgentCore Identity가 세션을 인증하고, AgentCore Memory가 이전 컨텍스트 (context)를 로드합니다. 지연 시간 (latency) 예산은 여기서부터 시작됩니다.

↓

  2
...

LLM (Claude, Nova 또는 다른 Bedrock 모델)이 쿼리에 실시간 데이터가 필요한지 여부를 추론합니다. 필요하다고 판단되면, 정제된 쿼리 문자열과 함께 웹 검색 (Web Search) 도구 호출 (tool call)을 생성합니다.

↓

  3
...

관리형 검색이 오픈 웹 (open web)을 대상으로 실행되며, 중복을 제거하고 순위를 매긴 뒤 소스 URL과 스니펫 (snippets)이 포함된 구조화된 결과를 반환합니다. 일반적으로 1초 미만에서 수 초 내에 완료됩니다.

↓

  4
...

Bedrock Guardrails가 반환된 콘텐츠가 모델 컨텍스트로 다시 들어가기 전에 정책 위반 여부를 검사하여 신뢰 계층 (Trust Layer)을 완성합니다.

↓

  5
...

결과가 컨텍스트 윈도우 (context window)로 다시 들어갑니다. 모델은 인라인 인용 (inline citations)을 포함하여 답변을 합성하며, 모든 주장이 소스로 추적되는 그라운딩 계약 (grounding contract)을 준수합니다.

↓

  6
...

실시간 에이전트를 위한 AI 기술: Bedrock AgentCore 웹 검색 완전 가이드

요약

핵심 포인트

개요: Bedrock AgentCore 웹 검색이란 정확히 무엇인가

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차가 진짜 문제인 이유

AI 조정 격차의 4가지 계층

계층 1: 신선도 계층 (The Freshness Layer)

계층 2: 근거 계층 (The Grounding Layer)

AI 조정 격차 (The AI Coordination Gap)

레이어 3: 도구 오케스트레이션 계층 (The Tool Orchestration Layer)

레이어 4: 신뢰 계층 (The Trust Layer)

댓글