원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 19일

대부분의 AI 기술 워크플로우는 완전히 잘못된 문제를 해결하고 있습니다. 사람들은 어떤 모델을 호출할지에 집착하지만, 실제 실패는 호출 사이의 단계, 즉 아무도 책임지지 않는 조정 계층 (Coordination Layer)에서 발생합니다. 시니어 엔지니어들이 마주하는 냉혹한 진실은 현대의 AI 기술은 모델 가중치 (Model Weights)가 아니라 핸드오프 (Handoffs) 과정에서 생존 여부가 결정된다는 것이며, 아무리 프롬프트 튜닝 (Prompt Tuning)을 해도 끊어진 이음새를 고칠 수는 없다는 점입니다.

AWS는 최근 Amazon Bedrock AgentCore의 Web Search를 출시했습니다. 이는 에이전트가 제3자 API를 추가하거나 스크래핑 파이프라인 (Scraping Pipeline)을 구축하지 않고도 실시간 웹 데이터를 쿼리할 수 있게 해주는 관리형 도구입니다. 이것이 지금 중요한 이유는, 오래된 학습 데이터 (Stale Training Data)를 기반으로 구축된 모든 프로덕션 에이전트가 단 한 번의 뉴스 사이클만 지나도 자신 있게 틀린 답을 내놓을 위험이 있기 때문입니다.

이 글을 읽고 나면 여러분은 AgentCore Web Search가 실제 에이전트 스택 (Agent Stack)에 어떻게 통합되는지, 어디에서 문제가 발생하는지, 그리고 어떻게 이를 배포할 수 있는지 정확히 알게 될 것입니다.

Diagram of Amazon Bedrock AgentCore agent calling Web Search tool for real-time data retrieval

Amazon Bedrock AgentCore Web Search는 에이전트의 추론 루프 (Reasoning Loop)와 최종 답변 사이에 실시간 검색 (Live Retrieval) 단계를 삽입하여, 모델의 지식과 현재 현실 사이의 격차를 메워줍니다.

개요: AgentCore Web Search가 실제로 변화시키는 것

실무자들이 고객 앞에서 에이전트가 실수한 뒤에야 깨닫게 되는 직관에 반하는 사실이 하나 있습니다. 바로 모델이 병목 현상(bottleneck)인 경우는 거의 없다는 점입니다. 각 단계의 신뢰도가 97%인 6단계 에이전트 파이프라인은 엔드투엔드(end-to-end)로 연결했을 때 신뢰도가 83%에 불과합니다. AgentCore의 웹 검색(Web Search)은 모델을 더 똑똑하게 만드는 것이 아닙니다. 대신 가장 흔하고 당혹스러운 실패 모드 중 하나, 즉 2024년의 지식 컷오프(knowledge cutoff)를 가진 에이전트가 2026년 6월에 관한 질문에 답하려 하는 문제를 제거해 줍니다.

Amazon Bedrock AgentCore는 AI 에이전트를 대규모로 구축, 배포 및 운영하기 위한 AWS의 프레임워크입니다. 이는 연구용 데모가 아닌 프로덕션 환경에 즉시 적용 가능한(production-ready) 도구입니다. 새로운 웹 검색(Web Search) 기능은 퍼스트 파티(first-party) 관리형 도구입니다. 에이전트에게 실시간 웹 쿼리를 실행할 수 있는 권한을 부여하면, AWS가 검색 인프라, 속도 제한(rate limiting), 결과 포맷팅 및 보안 경계(security boundary)를 처리합니다. 별도의 Bing API 키도 필요 없고, 취약한 Playwright 스크래퍼도 필요 없으며, 검색 문제로 위장한 벡터 데이터베이스(vector database)의 데이터 노후화(staleness) 문제도 발생하지 않습니다.

전략적 변화는 AWS가 도구 통합 비용(tool-integration tax)을 무너뜨리고 있다는 점입니다. 이전에는 모든 팀이 각자만의 검색 경로를 구축해야 했고, 모든 팀이 이를 약간씩 잘못 구현했습니다. 바로 그 지점에 더 깊은 문제가 존재합니다.

명명된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차(AI Coordination Gap)는 단일 AI 구성 요소 내부가 아니라, 구성 요소 간의 핸드오프(handoffs) — 즉 검색(retrieval), 추론(reasoning), 도구 호출(tool calls), 그리고 출력(output) — 사이에서 발생하는 시스템적 신뢰도 손실을 의미합니다. 이는 개별적으로는 매우 뛰어난 부품들로 구성된 스택이 왜 여전히 평범하거나, 취약하거나, 혹은 오래된 정보를 제공하는 에이전트를 만들어내는지 설명해 줍니다.

AgentCore의 웹 검색(Web Search)이 흥미로운 이유는 이것이 모델 제품이 아니라 조정 계층(coordination-layer) 제품이기 때문입니다. 이는 전체 에이전트 루프에서 가장 실패하기 쉬운 핸드오프 중 하나, 즉 에이전트가 무언가를 모른다고 판단하고 답을 찾기 위해 자신의 외부로 손을 뻗는 순간을 표준화합니다.

경제적 측면을 고려해 보십시오. 고객 대응 리서치 에이전트(research agent)를 운영하는 한 중견 SaaS 기업은 SerpAPI, 캐싱 레이어(caching layer), 그리고 취약한 콘텐츠 추출 서비스(content-extraction service)를 하나로 엮는 데 매월 약 $4,000를 지출하고 있다고 제게 말했습니다. 여기에 서비스가 중단되었을 때 발생하는 엔지니어 두 명 분의 온콜(on-call) 시간까지 더해집니다. 이를 관리형 AgentCore 도구로 통합한 것은 단순히 API 비용을 절감한 것에 그치지 않고, 새벽 2시에 깨어날 일 자체를 없애주었습니다. 엔지니어링 시간까지 비용에 산입하면, 단일 팀 기준으로 현실적인 절감액은 연간 $80,000에 가깝습니다.

83%
단계당 97% 신뢰도를 가진 6단계 파이프라인의 엔드 투 엔드(End-to-end) 신뢰도
[arXiv, 2024](https://arxiv.org/abs/2304.03442)
...

이 가이드의 나머지 부분에서는 AI 조정 격차(AI Coordination Gap)를 구성 요소별 레이어로 나누어 분석하고, AgentCore Web Search가 그중 하나를 어떻게 해결하는지 보여드리겠습니다. 또한 코드를 통해 실제 배포 패턴을 살펴보고, 시니어 팀들이 반복적으로 저지르는 실수들을 짚어보겠습니다. 이 글은 제가 첫 프로덕션 에이전트를 출시하기 전에 읽었더라면 좋았을 바로 그 글입니다.

AI 에이전트로 승리하는 기업은 가장 많은 GPU를 보유한 기업이 아니라, 조정(coordination) 문제를 해결한 기업입니다.

실시간 검색이 모델의 문제가 아닌 조정의 문제인 이유

대부분의 엔지니어에게 왜 에이전트가 오래된(stale) 답변을 내놓았는지 물어보면, 그들은 모델의 지식 컷오프(knowledge cutoff)를 탓할 것입니다. 잘못된 진단입니다. 모델이 실패한 것이 아니라, _조정(coordination)_이 실패한 것입니다. 에이전트가 무언가를 찾아보기로 결정하지 않았거나, 찾아보긴 했지만 결과를 무시했거나, 혹은 올바른 페이지를 가져왔음에도 불구하고 그 주변에서 환각(hallucination)을 일으킨 것입니다.

이것이 바로 AI 조정 격차(AI Coordination Gap)의 핵심입니다. 모든 현대적인 에이전트는 하나의 작은 분산 시스템(distributed system)입니다. 에이전트는 추론 구성 요소(LLM), 메모리 구성 요소(종종 벡터 데이터베이스 (vector database)), 도구 레이어(tool layer), 그리고 출력 포맷터(output formatter)를 가집니다. 각 요소는 개별적으로 테스트가 가능합니다. 하지만 격차는 그 사이의 이음새(seams)에서 발생합니다. 이는 마이크로서비스 (microservices)에 관한 고전적인 분산 시스템 문헌에서도 나타나는 교훈과 같습니다. 즉, 구성 요소의 실패보다 통합(integration)의 실패가 더 지배적이라는 점입니다.

Coined Framework

AI 조정 격차 (The AI Coordination Gap)

이는 평가(evals) 과정에서 구성 요소별로 측정한 신뢰도와 사용자가 실제로 엔드 투 엔드(end-to-end)로 경험하는 신뢰도 사이의 차이를 의미합니다. AgentCore Web Search는 가장 변동성이 큰 지점인 실시간 지식 검색(live knowledge retrieval)에서 이 격차를 줄이기 위한 의도적인 시도입니다.

실시간 검색에 대해 대부분의 사람들이 잘못 알고 있는 점은 이를 단순한 기능 토글(feature toggle)로 취급한다는 것입니다. 그들은 '웹 검색 추가'가 '에이전트가 이제 최신 사건을 알게 됨'을 의미한다고 가정합니다. 실제로 관리되지 않는 검색 도구를 추가하면 에이전트의 성능이 오히려 저하되는 경우가 많습니다. 지연 시간(Latency)이 급증하고, 모델은 저품질 결과물로 범람하며, 추론 루프(reasoning loop)가 맥락을 놓치게 됩니다. 핵심 기술은 검색 기능을 활성화하는 것이 아니라, 에이전트가 언제, 어떻게, 얼마나 검색할지를 조정(coordinating)하는 것입니다.

매 턴마다 검색을 수행하는 에이전트는 더 근거가 확실한(grounded) 것이 아니라, 더 느리고 노이즈가 심할 뿐입니다. 제가 본 최고의 프로덕션 에이전트들은 30% 미만의 턴에서만 검색을 수행합니다.

매 턴마다 검색을 수행하는 에이전트는 '더 근거가 확실한' 것이 아니라, 더 느리고 노이즈가 심할 뿐입니다. 제가 본 가장 성능이 뛰어난 프로덕션 에이전트들은 도구 호출(tool call) 전에 '신선한 데이터가 필요한가?'라는 명시적인 추론 단계를 거쳐, 30% 미만의 턴에서만 검색을 수행합니다.

조정 격차의 4가지 계층

이를 실행 가능한 형태로 만들기 위해, 저는 AI 조정 격차를 명명된 4가지 계층으로 나눕니다. AgentCore Web Search는 이 중 세 가지 계층에 직접적으로 관여합니다.

AgentCore Web Search가 조정 격차를 해소하는 방법

  1

    **의사결정 계층 (Decision Layer - LLM 추론)**

Bedrock 모델이 사용자 질의를 평가하여 내부 지식만으로 충분한지, 아니면 새로운 데이터가 필요한지를 결정합니다. 출력: 구조화된 도구 호출 의도(structured tool-call intent). 지연 시간: ~400-900ms.

↓

  2
...

AgentCore가 실시간 질의를 실행하고, 속도 제한(rate limits) 및 결과 순위 지정(result ranking)을 처리하며, 소스 URL이 포함된 구조화된 스니펫(structured snippets)을 반환합니다. 이는 이전에는 SerpAPI와 스크래퍼(scraper)가 모두 필요했던 접점(seam)입니다. 지연 시간: ~800ms-2s.

↓

  3
...

모델은 검색된 컨텍스트 (context)를 가지고 추론 루프 (reasoning loop)에 다시 진입하여, 출처를 인용하고 이전의 신념과 새로운 증거 사이의 충돌을 해결합니다. 바로 이 지점에서 대부분의 단순한 (naive) 구현체들이 환각 (hallucination)을 일으킵니다.

↓

  4
...

AgentCore는 도구 호출 (tool call)을 기록하고, 보안 경계 (security boundary)를 강제하며, 감사를 위해 출처의 기원 (source provenance)을 기록합니다. 출력값: 추적 가능하고 귀속 가능한 답변.

이 시퀀스 (sequence)가 중요한 이유는 각 아래 방향 화살표가 신뢰성이 누출될 수 있는 핸드오프 (handoff) 지점이기 때문입니다. AgentCore는 가장 위험한 두 화살표 (1→2 및 2→3)를 표준화합니다.

모델은 레이어 1과 3에 나타나지만, 도구는 레이어 2에만 나타난다는 점에 주목하십시오. 팀들이 실패하는 이유는 노력의 90%를 레이어 1인 프롬프트 엔지니어링 (prompt engineering)에 투자하고, 레이어 1, 2, 3 사이의 조정 (coordination)에는 거의 투자하지 않기 때문입니다. 저 또한 직접 경험해 보았습니다. 이를 깨닫는 데는 많은 비용이 듭니다.

Four-layer architecture showing decision, retrieval, grounding and governance layers of an AI agent

AI 조정 격차 (AI Coordination Gap)의 4계층 모델. AgentCore Web Search는 주로 검색 레이어 (retrieval layer)에서 작동하지만, 결정 (decision) 레이어와 근거 제시 (grounding) 레이어가 작동하는 방식을 재구성합니다.

AgentCore Web Search의 실제 작동 방식

구체적으로 들어가 보겠습니다. AgentCore Web Search는 관리형 도구 (managed tool)로서 귀하의 에이전트 (agent)에 노출됩니다. 검색 클라이언트 (search client)를 직접 작성하는 것이 아니라, 기능을 선언하면 AWS가 경로를 제공합니다. 이는 개념적으로 Anthropic의 도구 사용 (tool-use) API가 작동하는 방식과 동일하며, 범용 도구 인터페이스로서의 MCP (Model Context Protocol)를 향한 광범위한 흐름과도 호환됩니다.

다음은 AgentCore 에이전트를 웹 검색과 연결하는 최소한의 패턴입니다. 에이전트 스택을 구축 중이라면, 참조 구현을 위해 저희의 AI 에이전트 라이브러리를 탐색해 보시기 바랍니다.

Python — 웹 검색 기능이 포함된 AgentCore 에이전트

Amazon Bedrock AgentCore Web Search를 위한 개념적 패턴

import boto3

agentcore = boto3.client('bedrock-agentcore')

1. 웹 검색을 관리형 도구 (managed tool)로 사용하여 에이전트 정의

agent_config = {
'foundation_model': 'anthropic.claude-3-5-sonnet',
'tools': [
{
'type': 'web_search', # AgentCore에 의해 관리됨
'max_results': 5, # 노이즈를 근거 계층 (grounding layer)으로 제한
'allowed_domains': [], # 빈 값 = 오픈 웹
}
],

명시적인 결정 단계 뒤에 검색을 배치 (Gate search)

'instruction': (
'답변하기 전에, 질문이 당신의 학습 데이터 차단 시점 (training cutoff) 이후에 '
'변경되었을 수 있는 정보에 의존하는지 결정하십시오. '
'그럴 경우에만 web_search를 호출하십시오. 항상 출처 URL을 인용하십시오.'
)
}

}

response = agentcore.invoke_agent(
agentConfig=agent_config,
inputText='2026년 6월 연준(Fed) 회의에서 무엇을 결정했습니까?'
)

2. 응답에는 답변과 도구 출처 (tool provenance)가 모두 포함됨

print(response['outputText'])
for citation in response['citations']:
print(citation['sourceUrl'], citation['snippet'])

핵심적인 줄은 검색을 결정 단계 뒤로 배치하는 지시문 (instruction)입니다. 이 지시문이 없다면 에이전트는 무분별하게 검색을 수행하며, 당신은 매 턴마다 지연 시간 비용 (latency tax)을 지불하게 됩니다. 이 지시문이 있다면, 당신은 레이어 1에서 레이어 2로의 핸드오프 (handoff)를 명시적으로 설계하는 것이며, 이것이 바로 조정 격차 (Coordination Gap)가 존재하는 지점입니다.

명명된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

코드 상에서, 격차란 한 구성 요소가 다른 구성 요소로 제어권을 넘기는 시점을 관리하는 지시 로직 (instruction logic)을 의미합니다. 위 예시에서 가장 중요한 단 한 문장은 모델 이름이 아니라, 조건부 검색 게이트 (conditional search gate)입니다.

이 패턴은 더 넓은 오케스트레이션 프레임워크 (orchestration frameworks)와 결합됩니다. 만약 다단계 워크플로우 (multi-step workflows)를 실행 중이라면, 일반적으로 LangGraph 상태 머신 (state machine) 내에 AgentCore를 감싸거나, 멀티 에이전트 시스템 (multi-agent systems) 패턴을 사용하여 여러 에이전트를 조정할 수 있습니다. 이미 워크플로우 자동화 (workflow automation)에 투자하고 있는 팀의 경우, 이 검색 도구는 재작성 없이 기존 파이프라인에 바로 끼워 넣을 수 있습니다. 또한 인간 참여 (human-in-the-loop) 단계가 필요한 경우, AgentCore를 n8n과 같은 로우코드 (low-code) 스택으로 연결할 수도 있습니다.

max_results를 10이 아닌 3~5로 설정하십시오. 그라운딩 레이어 (grounding layer)에 입력되는 추가 결과가 많아질수록 토큰 비용은 선형적으로 증가하고, 환각 (hallucination) 위험은 비선형적으로 증가합니다. 더 많은 컨텍스트 (context)가 반드시 더 나은 그라운딩을 의미하는 것은 아닙니다.

[
▶

YouTube에서 시청하기
Amazon Bedrock AgentCore Web Search: 라이브 데모 및 아키텍처 워크스루 (Architecture Walkthrough)
AWS • Bedrock AgentCore agents

프로덕션 환경에서의 AI 기술: AgentCore Web Search와 AI 조정 격차 (AI Coordination Gap)

요약

핵심 포인트

개요: AgentCore Web Search가 실제로 변화시키는 것

AI 조정 격차 (The AI Coordination Gap)

실시간 검색이 모델의 문제가 아닌 조정의 문제인 이유

AI 조정 격차 (The AI Coordination Gap)

조정 격차의 4가지 계층

AgentCore Web Search의 실제 작동 방식

Amazon Bedrock AgentCore Web Search를 위한 개념적 패턴

1. 웹 검색을 관리형 도구 (managed tool)로 사용하여 에이전트 정의

명시적인 결정 단계 뒤에 검색을 배치 (Gate search)

2. 응답에는 답변과 도구 출처 (tool provenance)가 모두 포함됨

AI 조정 격차 (The AI Coordination Gap)

댓글