AI 기술: Amazon Bedrock AgentCore Web Search를 활용한 실시간 에이전트

원문은 twarx.com에서 처음 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 19일

대부분의 AI 워크플로우(AI workflows)는 완전히 잘못된 문제를 해결하고 있습니다. 그들은 검색 품질(retrieval quality)에 집착하는 동안, 정작 운영 환경(production)을 망가뜨리는 핵심 요소인 모델, 라이브 도구(live tool), 그리고 나머지 스택 간의 조정(coordination) 실패를 에이전트들이 조용히 겪게 방치합니다. 현대 **AI 기술(AI technology)**에 대한 냉혹한 진실은, 구성 요소들은 계속 개선되고 있지만 그것들로 구축된 시스템은 여전히 취약한 상태로 남아 있다는 것이며, 실시간 에이전트(real-time agents)는 그 격차를 그 무엇보다 빠르게 드러냅니다.

AWS는 최근 Amazon Bedrock AgentCore의 Web Search를 출시했습니다. 이는 에이전트 런타임(agent runtimes)에 직접 연결되는 관리형 실시간 웹 검색 프리미티브(web retrieval primitive)입니다. 이것이 지금 중요한 이유는 지식이 고정된 LLM(Large Language Model)과 라이브 인터넷 사이의 간극을 좁혀주며, 이를 통제 가능하고 관찰 가능한(governed, observable) 서비스로서 제공하기 때문입니다. 단순히 옆에 붙여놓은 검색 위젯이 아니라, 하나의 조정 계층(coordination layer)입니다.

이 글을 읽고 나면 여러분은 아키텍처(architecture), 실패 모드(failure modes), 실제 비용, 그리고 에이전트가 운영 환경에서 잘못 작동하지 않도록 배포하는 방법을 이해하게 될 것입니다. 만약 더 넓은 기초 지식을 먼저 원하신다면, 저희의 AI 에이전트 완전 가이드가 토대를 마련해 줄 것입니다.

Architecture diagram of Amazon Bedrock AgentCore Web Search connecting an LLM agent to live internet results

Amazon Bedrock AgentCore Web Search는 에이전트 추론 루프(agent reasoning loop)와 라이브 웹 사이에 위치하여, 순위가 매겨지고 인용 준비가 된(citation-ready) 결과값을 반환합니다. 이는 대부분의 AI 기술 스택에서 누락되었던 새로운 실시간 계층입니다.

AgentCore Web Search란 무엇인가 (그리고 왜 AI 기술 팀들이 이를 잘못 이해하고 있는가)

실제로 출시된 기능은 헤드라인보다 좁은 범위를 다루지만, 요약보다 더 중요합니다. Amazon Bedrock AgentCore Web Search는 AgentCore 런타임(runtime) 내부의 관리형 도구 프리미티브(tool primitive)입니다. Bedrock Agents SDK, Strands, LangGraph, 또는 CrewAI를 기반으로 구축되었든 관계없이, 여러분의 에이전트(agent)는 다른 도구를 호출하는 것과 동일한 방식으로 웹 검색을 호출하며, AgentCore는 구조화되고 인용 준비가 된 스니펫(snippet)을 반환하기 전에 재구성(reformulation), 가져오기(fetch), 그리고 랭킹(ranking) 과정을 처리합니다.

이것은 단순히 검색창을 감싸는 래퍼(wrapper)가 아닙니다. 이는 관찰 가능성(observability), ID 범위 액세스(identity-scoped access), 그리고 가드레일(guardrail) 통합이 내장된 에이전트 런타임(agent runtime)의 일급 구성 요소(first-class component)입니다. 그 차이점이 바로 이 글의 핵심입니다.

제가 처음 본 엔지니어는 이것을 연결하는 데 이틀 동안 쿼리 품질(query quality)에만 매달렸고, 신뢰 계층(trust layer)을 건드리지 않아 결국 지연 시간 퇴보(latency regression)를 일으키며 제품을 출시했습니다. 그것이 전형적인 패턴입니다. 실시간 AI의 어려운 점은 결코 "검색 결과를 가져오는 것"이 아니었습니다. Bing, Brave, Tavily, 그리고 SerpAPI는 수년 동안 그 기능을 판매해 왔습니다. 진짜 어려운 점은 비결정론적 추론 루프(non-deterministic reasoning loop)가 파이프라인의 나머지 부분을 손상시키지 않으면서, 실시간이며 지연 시간이 가변적이고 때로는 틀릴 수도 있는 외부 도구를 _조정(coordinate)_하게 만드는 것입니다. 그것이 바로 AgentCore가 조용히 해결하고 있는 문제이며, 제가 명시적으로 이름을 붙이려는 문제입니다.

조직된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차(AI Coordination Gap)는 개별적으로는 신뢰할 수 있는 AI 구성 요소들 — 모델(model), 검색기(retriever), 도구(tool), 가드레일(guardrail) — 이 타이밍, 신뢰, 그리고 상태(state)를 관리하는 조정 계층(coordination layer) 없이 서로 연결될 때 발생하는 시스템적 실패를 의미합니다. 이는 왜 95% 신뢰도를 가진 부품들의 스택이 여전히 60% 신뢰도의 제품을 만들어내는지에 대한 이유를 설명합니다.

이것이 왜 지금 당장 중요한 문제일까요? 업계 전체가 지난 2년 동안 개별 구성 요소(individual components) — 더 나은 임베딩 (embeddings), 더 긴 컨텍스트 윈도우 (context windows), 더 스마트한 라우터 (routers) — 를 최적화하는 데 시간을 보냈지만, 결국 프로덕션 환경에서 한계에 부딪혔습니다. 구성 요소들은 좋아졌지만, 시스템은 그렇지 않았습니다. AgentCore의 웹 검색 (Web Search)은 실시간 검색 (real-time retrieval)을 검색 문제(search problem)가 아닌, 우선적으로 조정 문제(coordination problem)로 취급하는 첫 번째 주요 클라우드 프리미티브 (cloud primitive)입니다. 이는 클라우드 제공업체들이 이 범주의 AI 기술 전체를 바라보는 방식에 있어 의미 있는 변화입니다.

이 가이드에서는 다음 내용을 다룹니다: AI 조정 격차 (AI Coordination Gap)에 대한 5계층 분석, 주석이 달린 AgentCore 아키텍처 다이어그램, 비용 수치가 포함된 실제 배포 패턴, 이러한 시스템을 망가뜨리는 실수들, 그리고 향후 타임라인을 살펴봅니다. 이제 시작해 봅시다.

83%
각 단계의 신뢰도가 97%인 6단계 파이프라인의 엔드 투 엔드 (End-to-end) 신뢰도
[arXiv, 2024](https://arxiv.org/abs/2308.00352)
...

왜 실시간 검색 (Real-Time Retrieval)이 AI 기술에서 누락된 계층이었는가

모든 대규모 언어 모델 (Large Language Model, LLM)은 지식 컷오프 (knowledge cutoff)를 가지고 출시됩니다. Claude, GPT, Gemini, Nova — 이들은 모두 학습 시점에 지식이 고정됩니다. 방대한 기업용 작업(enterprise tasks) 범주에서, 이러한 고정된 지식은 단순히 불완전할 뿐만 아니라, 확신을 가지고 틀린 정보를 제공합니다. 에이전트에게 지난 분기에 변경된 규정, 경쟁사의 현재 가격 페이지, 또는 긴급한 사건에 대해 물어본다면, 고정된 모델은 완전한 확신을 가지고 환각 (hallucination)을 일으킬 것입니다. 저는 팀이 고객에게 지적받기 전까지는 전혀 인지하지 못하는 데모 상황에서 이런 일이 발생하는 것을 목격해 왔습니다.

단순한 해결책은 자체 문서에 대한 RAG (Retrieval-Augmented Generation)를 적용하는 것입니다. 하지만 내부 RAG는 이미 인덱싱(indexing)된 내용만을 다룹니다. 뉴스, 문서, 가격 정보, 공시 자료, 상태 페이지와 같은 라이브 웹(live web)은 지구상에서 가장 거대한 미인덱싱 코퍼스(unindexed corpus)이며, 지금까지 에이전트를 여기에 안전하게 연결한다는 것은 검색 API, 스크래퍼(scraper), 랭커(ranker), 중복 제거 레이어(dedup layer), 그리고 가드레일(guardrail)을 수동으로 이어 붙이는 것을 의미했습니다. 모든 결합 지점은 AI 조정 격차 (AI Coordination Gap)가 발생할 수 있는 새로운 지점이었습니다. 관리형 옵션이 존재하기 전, 우리는 정확히 이 작업에 수 주를 허비했습니다. 만약 트레이드오프 (trade-offs)를 고민 중이라면, RAG vs fine-tuning에 대한 우리의 분석이 더 심도 있는 내용을 제공합니다.

AI 에이전트로 승리하는 기업은 가장 많은 GPU를 보유한 기업이 아닙니다. 모델과 무질서하고 역동적인 실제 세계 사이의 조정을 해결한 기업입니다.

AgentCore Web Search가 하는 일은 이러한 결합 과정을 관리되는 기본 요소 (governed primitive)로 흡수하는 것입니다. AWS에 따르면, 이 서비스는 쿼리 확장 (query expansion), 소스 랭킹 (source ranking)을 처리하며, 에이전트가 직접 인용할 수 있는 구조화된 결과 (structured results)를 반환합니다. 이 모든 과정은 신원 (identity), 관측 가능성 (observability), 그리고 가드레일을 관리하는 동일한 런타임 (runtime) 내에서 이루어집니다. 이러한 동일 위치 배치 (co-location)가 핵심입니다.

결과를 1.2초 만에 반환하지만 에이전트의 타임아웃 (timeout), 재시도 (retry), 가드레일 로직과 조정되지 않는 웹 검색 도구는 실제 운영 환경의 5회 실행 중 약 1회는 여전히 실패할 것입니다. 문제는 지연 시간 (latency)이 아니었습니다. 문제는 조정 (coordination)이었습니다.

Comparison of frozen-knowledge LLM output versus live web-grounded agent output with citations

지식이 고정된 모델은 시간에 민감한 쿼리에 대해 환각 (hallucination)을 일으킵니다. AgentCore Web Search를 통한 라이브 그라운딩 (live grounding)은 검증 가능한 인용 (verifiable citations)을 추가하며, 이는 데모와 실제 운영 가능한 AI 기술 시스템 사이의 차이를 만듭니다.

AI 조정 격차 (AI Coordination Gap): 실시간 에이전트를 위한 5계층 프레임워크

제가 Fortune 500 기업 팀들을 위해 에이전트 시스템을 감사(audit)할 때 사용하는 프레임워크를 소개합니다. AI 조정 격차 (AI Coordination Gap)는 한 곳에서 발생하는 것이 아니라, 다섯 가지의 뚜렷한 계층에 걸쳐 발생합니다. AgentCore Web Search는 설계상 일부 격차를 메워주지만, 다른 격차들은 온전히 사용자의 몫으로 남겨둡니다. 무엇이 무엇인지 파악하는 능력이 바로 실제로 출시된 시스템과 영원히 프로토타입에 머무는 시스템을 가르는 차이점입니다.

정립된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

이는 AI 구성 요소 간의 모든 핸드오프(handoff, 인계) 과정에서 발생하는 복합적인 손실을 의미합니다 — 모델에서 도구로, 도구에서 가드레일(guardrail)로, 가드레일에서 상태(state)로 이어지는 과정 말입니다. 공유된 타이밍(timing), 신뢰 점수(trust scoring), 그리고 상태 컨텍스트(state context)가 결여된 각 핸드오프는 다른 모든 핸드오프의 실패 확률을 배가시킵니다.

계층 1 — 의도 조정 (Intent Coordination)

에이전트는 모호한 사용자의 목표를 정밀한 검색 쿼리(search query)로 변환해야 합니다. 대부분의 실패는 여기서 시작됩니다: 모델이 모호한 쿼리를 생성하고, 노이즈가 섞인 결과를 받으며, 쓰레기 데이터를 바탕으로 추론하는 것입니다. AgentCore의 쿼리 재구성(query reformulation) 기능이 도움이 되긴 하지만, 검색을 '언제' 수행할지를 결정하는 시스템 프롬프트(system prompt)는 여전히 사용자의 책임입니다. 귀하의 에이전트는 “이것은 기억만으로 답변할 수 있다”와 “이것은 실시간으로 확인해야 한다”의 차이를 알고 있습니까? 그 결정 경계가 바로 의도 조정이며, 대부분의 에이전트는 이를 잘못 수행합니다. 그것도 소리 없이 말이죠.

계층 2 — 신뢰 조정 (Trust Coordination)

검색 결과의 신뢰도는 모두 동일하지 않습니다. Reddit 스레드와 SEC 공시 자료는 인식론적 무게(epistemic weight)가 같지 않으며, 근처에도 가지 않습니다. 에이전트가 반환된 모든 스니펫(snippet)을 그라운드 트루스(ground truth, 절대적 사실)로 취급할 때 조정 격차가 발생합니다. 모델이 무엇인가를 추론하기 전에 소스 평판(source reputation), 최신성(recency), 결과 간의 상호 확인(corroboration) 등을 포함하는 신뢰 점수 계층이 필요합니다. 이것이 바로 대부분의 자체 개발 시스템이 조용히 무너지는 지점입니다: 이들은 검색(retrieval)은 조정하지만, '신뢰'는 결코 조정하지 않습니다. 실제 AI 에이전트 실패 사례에 대한 저희의 노트는 이를 건너뛰는 것이 얼마나 비용이 많이 드는 일인지 보여줍니다.

계층 3 — 시간적 조정 (Temporal Coordination)

라이브 도구(Live tools)는 가변적인 지연 시간(latency)을 가집니다. 웹 페치(web fetch)는 400ms가 걸릴 수도 있고 9초가 걸릴 수도 있습니다. 만약 에이전트의 추론 루프(reasoning loop), API 게이트웨이 타임아웃(API gateway timeout), 그리고 사용자 대상 SLA(Service Level Agreement)가 서로 조정되지 않는다면, 시스템은 멈춰버리거나 미완성된 답변을 반환하게 됩니다. AgentCore는 지연 시간 텔레메트리(latency telemetry)를 노출하지만, 이를 사용자의 타임아웃 및 재시도 예산(retry budgets)과 반드시 조정해야 합니다. 프로덕션 환경에서 첫 번째 504 오류(504s) 파도를 맞기 전까지는 아무도 이를 신경 쓰지 않습니다.

계층 4 — 상태 조정 (State Coordination)

다단계(multi-step) 또는 멀티 에이전트(multi-agent) 실행 시, 2단계의 검색 결과는 7단계에서 정확하게 사용 가능해야 합니다. 공유 상태 계층(shared state layer)이 없다면, 에이전트들은 다시 검색을 수행하거나, 스스로 모순된 말을 하거나, 인용(citations)을 완전히 놓쳐버립니다. 여기서 LangGraph 및 멀티 에이전트 오케스트레이션 (multi-agent orchestration)과 같은 프레임워크가 중요해집니다. 이들은 AgentCore의 도구 계층이 연결될 수 있는 상태 그래프(state graph)를 제공합니다.

계층 5 — 거버넌스 조정 (Governance Coordination)

라이브 웹 액세스는 보안 및 컴플라이언스(compliance) 노출 영역입니다. 결론부터 말하자면 그렇습니다. 어떤 URL이든 가져올 수 있는 에이전트는 프롬프트 인젝션(prompt injection)을 통해 데이터를 유출하거나 내부 엔드포인트(internal endpoints)에 접근하도록 조종될 수 있습니다. 거버넌스 조정이란 ID 범위 기반 액세스(identity-scoped access), 허용/차단 목록(allow/deny lists), 그리고 검색 결과와 모델 사이에서 실행되는 가드레일(guardrails)을 의미합니다. 이것이 AgentCore의 가장 강력한 계층입니다. 기본적으로 Bedrock Guardrails와 IAM을 상속받으며, 진정으로 프로덕션에 가장 적합한(production-ready) 부분입니다. LLM 애플리케이션을 위한 OWASP Top 10 (OWASP Top 10 for LLM Applications)은 바로 이러한 이유로 프롬프트 인젝션을 1순위 위험으로 분류합니다.

각 단계의 신뢰도가 97%인 6단계 에이전트는 전체적으로 83%의 신뢰도만을 가집니다. 대부분의 팀은 이를 배포하기 전이 아니라, 배포한 다음 주에야 깨닫게 됩니다.

AgentCore Web Search 요청 라이프사이클 — 각 조정 계층의 위치

  1

    **에이전트 추론 루프 (Agent Reasoning Loop) (Bedrock / Strands / LangGraph)**

모델은 실시간 사실 확인이 필요하다고 결정합니다. 여기서 의도 조정 (Intent Coordination, Layer 1)이 발생합니다: 재구성된 쿼리와 함께 도구 호출 (tool-call)이 방출됩니다. 잘못된 시스템 프롬프트는 과도한 검색 또는 검색 부족을 야기합니다.

↓

  2
...

거버넌스 조정 (Governance Coordination, Layer 5): IAM은 검색 권한을 제한하며, Bedrock Guardrails는 외부 호출이 이루어지기 전 인젝션 (injection)이나 정책 위반 여부를 위해 쿼리를 검사합니다. 지연 시간 (Latency): 수십 ms.

↓

  3
...

쿼리 확장 (Query expansion), 다중 소스 가져오기 (multi-source fetch), 랭킹 (ranking), 중복 제거 (dedup). 시간적 조정 (Temporal Coordination, Layer 3): 지연 시간 텔레메트리 (latency telemetry)를 방출합니다. 구조화되고 인용 정보가 포함된 스니펫 (snippets)을 반환합니다. 지연 시간 (Latency): 통상 400ms–3s.

↓

  4
...

신뢰 조정 (Trust Coordination, Layer 2): 평판, 최신성, 상호 확인 (corroboration)에 따라 소스의 순위를 매깁니다. 신뢰도가 낮은 결과는 모델에 도달하기 전에 제거합니다. AgentCore는 이 작업을 대신 수행하지 않습니다.

↓

  5
...

상태 조정 (State Coordination, Layer 4): 결과와 인용 정보가 공유 상태 (shared state)에 기록되어, 이후 단계에서 재검색 없이 이를 재사용할 수 있습니다. 관찰 가능성 (Observability) 트레이스가 전체 경로를 캡처합니다.

↓

  6
...

모델은 신뢰할 수 있는 상태 내의 스니펫만을 사용하여 답변을 구성하며, 소스 URL을 첨부합니다. 출력 가드레일 (Output guardrail)이 사용자가 확인하기 전 최종 점검을 수행합니다.

AI 기술: Amazon Bedrock AgentCore Web Search를 활용한 실시간 에이전트

요약

핵심 포인트

AgentCore Web Search란 무엇인가 (그리고 왜 AI 기술 팀들이 이를 잘못 이해하고 있는가)

AI 조정 격차 (The AI Coordination Gap)

왜 실시간 검색 (Real-Time Retrieval)이 AI 기술에서 누락된 계층이었는가

AI 조정 격차 (AI Coordination Gap): 실시간 에이전트를 위한 5계층 프레임워크

AI 조정 격차 (The AI Coordination Gap)

계층 1 — 의도 조정 (Intent Coordination)

계층 2 — 신뢰 조정 (Trust Coordination)

계층 3 — 시간적 조정 (Temporal Coordination)

계층 4 — 상태 조정 (State Coordination)

계층 5 — 거버넌스 조정 (Governance Coordination)

댓글