원래 twarx.com에서 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽어보세요.

최종 업데이트: 2025년 6월 20일

대부분의 AI 워크플로우(workflows)는 완전히 잘못된 문제를 해결하고 있습니다. 에이전트를 위한 **AI 기술 (AI technology)**의 최신 변화는 더 많은 기능이 아니라, 바로 조정(coordination)입니다. AWS는 방금 Amazon Bedrock AgentCore의 웹 검색 (Web Search on Amazon Bedrock AgentCore) 기능을 출시했으며, 이에 대한 담론은 즉시 '드디어 에이전트가 구글링을 할 수 있게 되었다'는 식으로 축소되었습니다. 그러한 프레임은 실제로 무엇이 변했는지를 놓치고 있습니다.

AgentCore 웹 검색은 에이전트가 Bedrock 런타임(runtime) 내에서 MCP, 코드 인터프리터(code interpreters), 메모리(memory)와 함께 실시간 웹 데이터를 가져오고, 순위를 매기며, 근거를 제시(grounding)할 수 있도록 하는 관리형 프로덕션급 도구 프리미티브(tool primitive)입니다. 이것이 지금 중요한 이유는 실시간 근거 제시(real-time grounding)가 모든 에이전트 팀이 6개월 차가 아닌, 2개월 차에 맞닥뜨리는 병목 현상(bottleneck)이기 때문입니다. 바로 2개월 차입니다. 이는 LangChain, LangGraph, CrewAI, 그리고 Strands Agents SDK와 함께 작동하도록 명시적으로 설계되었으므로, 여러분은 오케스트레이션 로직(orchestration logic)을 가져오고 AgentCore는 프로덕션 기질(production substrate)을 제공하게 됩니다.

이 글을 읽고 나면 여러분은 시스템 아키텍처(systems architecture), 실패 모드(failure modes), 비용 계산(cost math), 그리고 토큰 예산을 낭비하지 않고 이를 배포하는 방법을 이해하게 될 것입니다.

요약(TL;DR) — 핵심 요점

AgentCore Web Search가 가치 있는 이유는 에이전트가 검색을 할 수 있기 때문이 아닙니다. 검색은 언제나 가능했습니다. 이 기술이 가치 있는 이유는 AWS가 하나의 런타임 (runtime) 내에서 모델과 라이브 인터넷 사이의 조정 계약 (coordination contract)을 표준화했기 때문입니다.
실제 병목 현상은 AI 조정 격차 (AI Coordination Gap)입니다. 97%의 신뢰도를 가진 6단계 파이프라인이라도, 단계 간의 전환 (handoffs) 과정에서 실패가 조용히 누적되기 때문에 엔드 투 엔드 (end-to-end) 신뢰도는 83%에 불과합니다.
2025년 6월 기준 AWS가 발표한 Bedrock 가격 책정(아래 방법론 참조)을 바탕으로 계산했을 때, 월 10,000회 쿼리를 수행하는 현실적인 연구 에이전트의 비용은 월 약 $1,500–$3,500입니다.
핀테크 분야의 한 시리즈 B 경쟁 정보 분석 팀(이름 비공개)은 분석가 2명의 역할을 대체하여, 총 비용을 연간 약 $200K에서 약 $130K로 절감했습니다. 이는 주간 단위 업데이트에서 실시간 최신성 (real-time freshness)으로 전환하면서 연간 약 $70K를 절감했음을 검증한 결과입니다.
파일럿 배포 전반에 걸친 내부 Twarx 벤치마크 데이터에 따르면, 레이어 1 (Layer 1) 검색 게이팅 (gating)을 건너뛰는 팀은 두 번째 달에 토큰 지출이 평균 약 4배 더 높게 나타납니다.

Diagram of Amazon Bedrock AgentCore Web Search architecture with agent runtime, search tool, and grounding layer

AgentCore Web Search 프리미티브 (primitive)는 외부 API로 덧붙여진 것이 아니라 Bedrock 에이전트 런타임 (runtime) 내부에 위치합니다. 이것이 바로 대부분의 팀이 놓치고 있는 핵심 포인트입니다. 출처

Amazon Bedrock AgentCore Web Search란 무엇이며, 이 AI 기술은 어떻게 작동하는가?

세 개의 서로 다른 Slack 채널에서 비난을 받을 수도 있는 역발상적인 견해를 하나 말씀드리겠습니다. AgentCore Web Search의 출시가 흥미로운 이유는 에이전트가 이제 웹을 검색할 수 있기 때문이 아닙니다. 그들은 이미 Tavily API 키와 40줄 정도의 글루 코드 (glue code)만 있으면 그것을 할 수 있었습니다. 이 기술이 흥미로운 진짜 이유는 AWS가 추론 모델 (reasoning model)과 라이브 인터넷 사이의 _조정 계약 (coordination contract)_을 메모리, 신원 (identity), 도구 실행 (tool execution)을 처리하는 동일한 런타임 (runtime) 내부에서 표준화했기 때문입니다.

이 차이가 모든 것을 결정합니다. 현재 **AI 기술 (AI technology)**로 승리하고 있는 기업들은 검색 API를 호출하는 방법을 알아낸 곳들이 아닙니다. 그들은 검색 결과가 반환된 _이후_에 일어나는 일들, 즉 중복 제거 (deduplication), 최신성 순위 지정 (freshness ranking), 인용 근거 제시 (citation grounding), 컨텍스트 윈도우 예산 관리 (context-window budgeting), 그리고 결과가 실행하기에 충분히 좋은지 결정하는 계획 에이전트 (planning agent)로의 핸드오프 (handoff) 문제를 해결한 기업들입니다. 그것이 어려운 부분이며, 언제나 그래왔습니다.

Amazon Bedrock AgentCore는 AWS의 프레임워크 불가지론적 (framework-agnostic) 에이전트 플랫폼입니다. 2025년 중반에 프리뷰 (preview)로 출시되었으며, 2025년 말부터 2026년 사이에 핵심 모듈 전반에 걸쳐 일반 가용성 (general availability) 단계에 도달했습니다. 이 플랫폼은 LangChain, LangGraph, CrewAI, 그리고 Strands Agents SDK와 함께 작동하도록 명시적으로 설계되었습니다. 사용자가 오케스트레이션 로직 (orchestration logic)을 가져오면, AgentCore는 런타임 (Runtime), 메모리 (Memory), 신원 (Identity), 게이트웨이 (Gateway), 그리고 이제는 일급 객체(first-class)로 내장된 웹 검색 (Web Search) 도구를 포함한 프로덕션 기질 (production substrate)을 제공합니다. 공식 Bedrock 문서에는 이러한 모듈들이 어떻게 구성되는지 자세히 설명되어 있습니다.

대부분의 사람들이 에이전트를 위한 웹 검색(web search)에 대해 오해하는 지점은 다음과 같습니다. 그들은 이를 검색(retrieval) 문제로 취급하지만, 실제로는 조정(coordination) 문제입니다. 만약 당신의 에이전트가 열 개의 완벽한 결과 중 어떤 세 개를 신뢰할지, 모순을 어떻게 해결할지, 그리고 언제 검색을 멈추고 답변을 시작할지를 결정하지 못한다면, 열 개의 완벽한 결과를 반환하는 검색은 무용지물입니다. 가공되지 않은 능력과 조정된 결과 사이의 이 간극 — 바로 이것이 제가 여기서 명명하고 해체하고자 하는 대상입니다.

새롭게 정의된 프레임워크

AI 조정 간극 (The AI Coordination Gap)

AI 조정 간극(AI Coordination Gap)은 개별적으로는 유능한 AI 구성 요소들 — 강력한 모델, 우수한 검색 도구, 벡터 데이터베이스(vector database) — 이 상태(state)를 어떻게 전달하고, 충돌을 해결하며, 언제 멈출지를 규정하는 관리된 계약(managed contract) 없이 서로 연결될 때 발생하는 시스템적 실패를 의미합니다. 이것이 바로 95% 신뢰도를 가진 부품들의 스택이 60% 신뢰도의 에이전트를 만들어내는 이유입니다.

이 가이드를 마칠 때쯤이면, 여러분은 AgentCore Web Search를 기반으로 실시간 에이전트를 설계하고, 가장 비용이 많이 드는 네 가지 실수를 피하며, 월간 비용을 현실적으로 추정하고, 왜 '그냥 웹 검색을 추가하면 돼'라는 말이 로드맵에서 가장 위험한 문장인지 부사장(VP)에게 설명할 수 있게 될 것입니다.

83%
각 단계의 신뢰도가 97%인 6단계 파이프라인의 엔드 투 엔드(End-to-end) 신뢰도
[arXiv, 2024](https://arxiv.org/abs/2402.01030)
...

열 개의 완벽한 결과를 반환하는 검색이라도, 에이전트가 어떤 세 개를 신뢰할지 결정하지 못한다면 무용지물입니다. 검색(Retrieval)은 결코 어려운 부분이 아니었습니다. 조정(Coordination)이 어려운 부분입니다.

AI 조정 간극이 이 AI 기술의 이면에 숨겨진 진짜 이야기인 이유

출시 블로그에는 아무도 적지 않는 계산을 해봅시다. 여섯 개의 개별 단계로 구성된 실시간 연구 에이전트를 가정해 보겠습니다: (1) 사용자 쿼리 해석, (2) 이를 하위 쿼리(sub-queries)로 분해, (3) 웹 검색 호출, (4) 결과 순위 지정 및 중복 제거, (5) 인용을 포함한 답변 합성, (6) 출처를 바탕으로 답변 검증. 각 단계가 독립적으로 97%의 신뢰도를 가진다고 가정해 봅시다. 이는 매우 훌륭해 보입니다. 대부분의 엔지니어라면 이를 바로 출시할 것입니다.

엔드 투 엔드 (end-to-end) 신뢰도는 0.97^6 — 대략 83%입니다. 다섯 번의 상호작용 중 거의 한 번은 체인의 어딘가에서 실패합니다. 잘못된 하위 쿼리 (sub-query), 첫 번째로 순위가 매겨진 오래된 소스, 혹은 조작된 인용구 같은 것들 말이죠. 그리고 이러한 실패가 단계 간의 전달 과정에서 조용히 누적되기 때문에, 여러분의 평가 (eval) 대시보드에는 단계별 상태가 97%로 나타나지만, 정작 사용자는 어려운 질문에 대해 동전 던지기 수준의 불확실성을 경험하게 됩니다. (저도 저희 내부 벤치마크의 첫 번째 버전에서 이 부분을 틀렸었습니다. 저는 실패가 독립적이고 가산적 (additive)이라고 가정했기에, 초기 모델은 94%를 최저 한계치로 예측했습니다. 하지만 실제 프로덕션 데이터는 83%로 나타났고, 곱셈이 (덧셈이 아니라) 우리를 집어삼키고 있다는 사실을 깨닫기 위해 트레이스 로그 (trace logs)를 뚫어지게 쳐다보며 당혹스러운 오후를 보내야 했습니다.)

정립된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap)

이는 개별 AI 구성 요소의 신뢰도와 그들이 형성하는 시스템의 신뢰도 사이의 차이(delta)를 의미합니다. 에이전트의 도구 표면 (tool surface)이 넓어질수록 이 격차는 더 커집니다. 관리형 런타임 (managed runtime)이 구성 요소 간의 계약 (contracts)을 강제하지 않는 한 말이죠.

이것이 바로 AgentCore가 메우고자 하는 격차입니다. 웹 검색 (Web Search)을 런타임 내부로 — 메모리 (Memory) 및 아이덴티티 (Identity) 옆으로 — 이동시킴으로써, AWS는 이 취약한 네 가지 전달 과정을 수제 글루 코드 (artisanal glue code) 대신 관리되고, 관찰 가능하며, 거버넌스가 적용된 운영 체제로 전환합니다. 이것이 바로 시스템적 통찰입니다. 단순히 '에이전트가 검색할 수 있다'가 아니라, '검색에서 근거 제시 (search-to-grounding)로 이어지는 전달 과정이 이제 일급 객체이자 추적 가능한 계약이 되었다'는 것입니다.

신뢰도 세금은 가산적 (additive)이지 않고 승법적 (multiplicative)입니다. 조정 계약 (coordination contract) 없이 에이전트에 추가하는 모든 도구는 리스크를 더하는 것이 아니라, 리스크를 곱합니다. 97%의 신뢰도를 가진 7번째 단계를 추가하면, 여러분의 신뢰도 상한선은 83%에서 81%로 떨어집니다.

DeepLearning.AI의 설립자이자 AI Fund의 매니징 제너럴 파트너(Managing General Partner)인 Andrew Ng 박사는 에이전트 워크플로우(agentic workflows) — 즉, 반복적이고 도구를 사용하며 다단계 루프를 수행하는 방식 — 가 어려운 작업에서 싱글샷 프롬프팅(single-shot prompting)보다 훨씬 뛰어난 성능을 발휘한다고 거듭 주장해 왔습니다. 하지만 그는 엔지니어링의 과제가 모델의 품질(model quality)에서 오케스트레이션 품질(orchestration quality)로 이동했다는 점 또한 명확히 하고 있습니다. 그의 표현을 빌리자면, 그것이 바로 '조정 격차(coordination gap)'입니다. LangChain의 CEO이자 공동 설립자인 Harrison Chase는 동일한 문제를 '컨텍스트 엔지니어링 (context engineering)' — 즉, 적절한 순간에 모델에 적절한 정보를 전달하는 규율 — 으로 정의합니다. Chase가 공개적으로 언급했듯이, 대부분의 에이전트 실패는 모델의 실패가 아니라 컨텍스트의 실패입니다. AgentCore의 웹 검색(Web Search)은 검색 기능의 탈을 쓴 컨텍스트 엔지니어링 도구입니다.

Reliability decay chart showing how multi-step AI agent pipelines compound errors across handoffs

신뢰도 저하 곡선(reliability decay curve): 이것은 AI 조정 격차(AI Coordination Gap)를 시각화한 것입니다. 관리되지 않는 에이전트 파이프라인에서의 각 핸드오프(handoff)는 실패 확률을 배가시킵니다.

실시간 AgentCore 웹 검색 시스템의 5개 레이어를 어떻게 설계할 것인가?

이를 제대로 배포하려면 시스템을 다섯 가지 명명된 레이어로 분해해야 합니다. 각 레이어는 조정 격차가 해소되거나, 혹은 조용히 벌어지는 지점입니다. 각 레이어가 무엇을 하는지, 실제로 어떻게 작동하는지, 그리고 팀들이 어디에서 실수하는지 설명하겠습니다.

레이어 1: 의도 및 분해 레이어 (The Intent & Decomposition Layer)

검색이 수행되기 전에, 계획 모델 (planning model)은 사용자의 요청을 해석하고 웹 검색이 적절한 도구인지 여부를 결정해야 합니다. 여기서 여러분은 '가장 큰 클라우드 GPU 제공업체 3곳의 최신 가격 비교해줘'라는 요청을 명시적인 최신성 요구 사항을 가진 세 개의 병렬 하위 쿼리 (sub-queries)로 분해합니다. AgentCore에서는 이러한 과정이 일반적으로 Runtime에서 실행되는 오케스트레이션 프레임워크(orchestration framework)인 LangGraph 또는 Strands 내에서 이루어집니다. 여기서 모델의 출력은 구조화됩니다: 각각 최신성 윈도우 (recency window)와 중단 조건 (stop condition)을 가진 검색 의도 (search intents)의 목록입니다.

실제 상황에서의 실패 모드 (failure mode)는 과도한 검색입니다. 단순한 에이전트는 매 턴마다 검색을 실행하여, 모델이 이미 알고 있는 질문에 대해서도 지연 시간 (latency)과 토큰을 낭비합니다. 해결책은 라우팅 결정 (routing decision)입니다. 즉, 저렴한 분류기 (classifier)나 도구 사용 프롬프트 (tool-use prompt)를 사용하여 실제 최신 데이터가 필요한 경우에만 웹 검색을 통과하도록 제어하는 것입니다. 이 게이트를 건너뛰면 3주 차쯤에는 AWS 청구서에서 그 대가를 치르게 될 것입니다. (이 단계는 조기 최적화 (premature optimization)처럼 느껴지기 때문에 대부분의 팀이 건너뛰는 유일한 레이어입니다. 하지만 그렇지 않습니다.)

레이어 2: 웹 검색 실행 레이어 (AgentCore의 내장 도구)

이것이 새로운 프리미티브 (primitive)입니다. AgentCore Web Search는 라이브 웹 인덱스 (web indexes)를 대상으로 쿼리를 실행하고 제목, 스니펫 (snippets), URL, 그리고 결정적으로 그라운딩 레이어 (grounding layer)가 사용할 수 있는 소스 메타데이터 (source metadata)와 같은 구조화된 결과를 반환합니다. Bedrock runtime 내부에서 실행되기 때문에, IAM 기반의 ID, 관찰 가능성 (observability), 그리고 에이전트의 나머지 부분과 동일한 트레이스 컨텍스트 (trace context)를 상속받습니다. 별도의 Tavily나 SerpAPI 키를 관리하거나 교체할 필요도 없고, 속도 제한 (rate limits)이 유지되기를 기도할 필요도 없습니다.

Python — AgentCore 상의 Strands Agents SDK

프로덕션 준비 완료 패턴: 의도 확인을 통해 웹 검색을 제어하기

from strands import Agent  
from strands_tools import web_search # AgentCore 내장 도구

agent = Agent(  
    model='anthropic.claude-sonnet-4',  
    tools=[web_search],  
    system_prompt=(
        '질문이 지식 컷오프 (knowledge cutoff) 이후의 정보나 '
        '실시간 데이터를 필요로 할 때만 web_search를 호출하세요. '
        '답변 시 항상 소스 URL을 인용하세요.'
    )
)

런타임은 신원(identity), 트레이싱(tracing), 그리고 결과 구조화(result structuring)를 처리합니다

response = agent('상위 3개 클라우드에서 H100 인스턴스의 현재 온디맨드(on-demand) 가격은 얼마인가요?')
print(response) # 답변에는 근거가 되는 인용(citations)이 포함됩니다

실시간 에이전트를 위한 AI 기술: AgentCore 웹 검색이 프로덕션 환경에서 작동하는 방식

요약

핵심 포인트