원문은 twarx.com에서 처음 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽어보세요.

최종 업데이트: 2026년 6월 19일

오케스트레이션 레이어 (orchestration layer)를 재구조화하지 않고 **Amazon Bedrock AgentCore 웹 검색 (web search)**을 에이전트에 추가하는 것은 업그레이드가 아닙니다. 이는 쿼리당 더 많은 비용을 발생시키고, 더 많은 환각 (hallucinations)을 드러내며, 아무도 스트레스 테스트 (stress-tested)를 하지 않은 도구 호출 체인 (tool-call chain)에 실제 고객 대상 의사결정을 맡기게 되는 부채입니다. 2025년에 AgentCore 웹 검색을 출시하는 대부분의 팀은 더 똑똑한 에이전트를 만들고 있는 것이 아닙니다. 그들은 대규모로 자신 있게 틀릴 수 있는 더 빠른 방법을 만들고 있는 것입니다.

AWS는 프로덕션 환경에서 모든 정적 LLM (Large Language Model)을 무너뜨리는 지식 컷오프 (knowledge-cutoff) 장벽을 해결하기 위해 Amazon Bedrock AgentCore에서 웹 검색을 출시했습니다. 하지만 이 도구는 이를 안전하게 만드는 오케스트레이션 스캐폴딩 (orchestration scaffolding) 없이 출시되었습니다. 이 가이드는 현재 예산과 신뢰를 갉아먹고 있는 6가지 실수를 지목합니다.

이 글을 다 읽을 때쯤이면 여러분은 프로덕션 준비가 된 참조 아키텍처 (reference architecture), 1,000개 쿼리당 실제 비용 벤치마크 (cost benchmarks), 그리고 견고한 에이전트와 34,000달러의 초과 비용을 가르는 정확한 설정 파라미터 (config parameters)를 갖게 될 것입니다.

Amazon Bedrock AgentCore web search architecture diagram showing query planner and trust filter layers

그라운딩 부채 나선 (The Grounding Debt Spiral)은 라우팅 레이어 (routing layer) 없이 웹 검색이 Bedrock 에이전트에 결합되는 순간 시작됩니다. 각 새로운 소스는 지연 시간 (latency), 비용, 그리고 환각 위험을 동시에 가중시킵니다. 출처

2025년 Amazon Bedrock AgentCore 웹 검색이 실제로 하는 일

Amazon Bedrock AgentCore 웹 검색은 모든 정적 LLM (Large Language Model) 배포에 영향을 미치는 단 하나의 구조적 한계인 지식 컷오프 (knowledge cutoff) 문제를 해결하기 위해 AWS Summit New York 2025에서 발표되었습니다. 여러분의 Claude 또는 Nova 모델은 학습 데이터 날짜 이후의 사건에 대해 전혀 알지 못합니다. 웹 검색은 추론 (inference) 시점에 실시간 HTTP 검색 (retrieval)을 수행함으로써 그 간극을 메워주지만, 그 방식은 대부분의 팀이 이미 실행하고 있는 검색 패턴과는 근본적으로 다릅니다.

AgentCore의 웹 검색 도구가 RAG 및 브라우저 자동화와 다른 점

검색 증강 생성 (RAG)은 벡터 데이터베이스 (vector database) 내에서 사용자가 제어하는 큐레이션된 임베딩 코퍼스 (embedded corpus)에서 정보를 가져옵니다. 브라우저 자동화 (browser automation)는 헤드리스 크롬 (headless Chrome)을 구동하여 클릭하고 스크래핑 (scrape)을 수행합니다. AgentCore 웹 검색은 그 중간에 위치합니다. 이는 검색 백엔드에 구조화된 쿼리 (structured queries)를 발행하고 순위가 매겨진 요약된 산문을 반환합니다. AWS 내부 벤치마크에 따르면 도구 호출 (tool call)당 중앙값 지연 시간 (median latency)은 300~900ms가 소요됩니다. 이 지연 시간은 단순한 오차가 아닙니다. 이는 여러분이 설계를 구성할 때 반드시 고려해야 할 전체 예산 항목입니다.

'실시간 그라운딩 (real-time grounding)'의 아키텍처적 의미 vs 마케팅적 의미

마케팅에서는 '실시간 그라운딩 (real-time grounding)'이라고 말합니다. 아키텍처 측면에서 이는 에이전트가 이제 추론 중간에 외부 네트워크 호출을 수행하고, 신뢰할 수 없는 HTML 유래 텍스트를 파싱 (parse)하며, 이를 모델 컨텍스트 윈도우 (context window)에 주입함을 의미합니다. 네트워크, 파싱, 신뢰라는 세 가지 새로운 실패 지점 (failure surfaces)이 단일 도구 호출에 포함된 것입니다. AWS 비즈니스 인텔리전스 데모 (Tuncer et al., 2025년 5월)는 시장 데이터의 최신성을 위해 웹 검색에 의존했지만, 공개된 아키텍처에는 재시도 로직 (retry logic)이 조용히 누락되어 있습니다. 이러한 누락은 참조 자료에서조차 그 간극이 실재함을 알려줍니다.

AgentCore 웹 검색 vs OpenAI 웹 검색 vs Perplexity API: 솔직한 비교

각 도구는 서로 다른 계약(contract)을 최적화합니다. 아래의 솔직한 비교는 AgentCore가 승리하는 지점과 사용자에게 작업을 남겨두는 지점을 보여줍니다. 더 넓은 관점에서의 지형도를 확인하려면, 당사의 AI 에이전트 프레임워크 비교 (AI agent frameworks comparison)를 통해 이들이 에이전트 프레임워크와 어떻게 대조되는지 살펴보세요.

기능 (Capability)	AgentCore 웹 검색 (Web Search)	OpenAI 웹 검색 (Web Search)	Perplexity API
네이티브 AWS IAM / VPC 통합	예 (Yes)	아니요 (No)	아니요 (No)
내장된 소스 신뢰 필터링 (Built-in source-trust filtering)	아니요 (직접 구현 필요)	부분적 (Partial)	부분적 (Partial)
중간 추가 지연 시간 (Median added latency)	300–900ms	~500ms	~400ms
인용 근거 출력 (Citation grounding output)	요약형 (Summarised)	인라인 인용 (Inline cites)	인라인 인용 (Inline cites)
도구 호출 예산 제어 (Tool-call budget controls)	maxIterations / timeout	제한적 (Limited)	제한적 (Limited)
프로덕션 준비 상태 (Production-ready status)	기본 호출: 예 (yes)	GA (General Availability)	GA

현재 프로덕션 준비 완료: 기본 웹 검색 도구 호출, 구조화된 쿼리 생성, 결과 요약. 여전히 실험적 단계: 멀티홉 웹 추론 체인 (multi-hop web reasoning chains), 적대적 입력 필터링 (adversarial input filtering), 교차 소스 충돌 해결 (cross-source conflict resolution). 두 번째 목록은 AWS가 이미 출시한 기능이 아니라, 여러분의 엔지니어링 백로그 (engineering backlog)로 취급하십시오.

300–900ms
웹 검색 도구 호출당 중간 추가 지연 시간 (Median added latency per web search tool call)
[AWS, 2025](https://aws.amazon.com/blogs/machine-learning/introducing-web-search-on-amazon-bedrock-agentcore/)
...

웹 검색이 에이전트를 더 똑똑하게 만드는 것은 아닙니다. 웹 검색은 에이전트를 더 시끄럽게 만들 뿐입니다. 그 시끄러움이 신호(signal)인지 소음(noise)인지 여부는 모델의 결정이 아니라 아키텍처의 결정입니다.

실수 1 — 웹 검색을 RAG의 즉각적인 대체제로 취급하는 것

이것이 바로 근거 부채의 소용돌이 (Grounding Debt Spiral)가 시작되는 지점입니다. 어떤 팀이 웹 검색을 보고 자신의 벡터 데이터베이스 (vector database)가 이제 불필요하다고 판단하여 RAG 레이어를 제거해 버립니다. 2주 이내에 에이전트 비용은 더 높아지고, 가장 중요한 정확한 쿼리에 대해 더 많은 환각 (hallucination)을 일으키며, 아무도 그 이유를 설명하지 못하게 됩니다.

Coined Framework

그라운딩 부채의 소용돌이 (The Grounding Debt Spiral) — 검색 오케스트레이션 (retrieval orchestration)을 재설계하지 않은 채 Bedrock 에이전트에 웹 검색을 추가함으로써 발생하는 복합적인 실패 패턴입니다. 이는 새로운 데이터 소스가 추가될 때마다 지연 시간 (latency), 비용, 그리고 환각 (hallucination) 위험을 동시에 증가시켜, 에이전트가 더 많은 정보를 얻을수록 오히려 신뢰성은 떨어지게 만드는 기술 부채 (technical debt) 루프를 생성합니다.

이는 나쁜 부채에 대한 복리 이자와 유사한 에이전트적 현상입니다. 큐레이션되지 않은 소스를 추가할 때마다, 답변의 품질이 향상되는 속도보다 컨텍스트 오염 (context pollution)이 증가하는 속도가 더 빨라집니다. 에이전트는 더 많은 정보를 알고 있는 것처럼 느껴지지만, 측정 가능한 신뢰성은 눈에 띄게 낮아집니다.

RAG와 웹 검색이 근본적으로 다른 검색 계약 (retrieval contracts)을 제공하는 이유

RAG는 결정론적 계약 (deterministic contract)에 응답합니다: 즉, 통제되고 관리되는 코퍼스 (corpus) 내에서 정보를 검색하는 것입니다. 반면 웹 검색은 변동성이 큰 계약 (volatile contract)에 응답합니다: 즉, 지난 100ms 동안 오픈 웹에서 가장 높게 랭킹된 것이 무엇이든 검색하는 것입니다. 규제 인용문, 내부 정책, 제품 사양은 첫 번째 계약에 속합니다. 시장 가격, 속보, 경쟁사 발표는 두 번째 계약에 속합니다. 이 두 가지를 하나의 도구로 통합하는 것이 근본적인 오류이며, 저는 많은 팀이 웹 검색을 상위 집합 (superset)처럼 느끼기 때문에 이 실수를 반복하는 것을 목격해 왔습니다. 하지만 웹 검색은 상위 집합이 아닙니다.

벡터 데이터베이스를 너무 일찍 포기할 때 발생하는 숨겨진 비용

RAG에서 순수 웹 검색으로 전환하는 팀들은 세션당 평균 토큰 비용이 55~70% 상승하는 것을 경험합니다. 웹 검색 결과는 압축되지 않고 인덱싱되지 않은 산문 형태이기에, 큐레이션된 임베딩 (embeddings)보다 훨씬 더 많은 컨텍스트 윈도우 (context window)를 소비하기 때문입니다. AWS ML 블로그에 기록된 한 핀테크 팀은 컴플라이언스 Q&A를 위해 Pinecone RAG 레이어를 AgentCore 웹 검색으로 교체했습니다. 그 결과 지연 시간은 줄었지만, 규제 인용문에 대한 환각률은 2주 만에 4%에서 11%로 상승했습니다. 그들은 잘못된 지표를 최적화한 것입니다. 이것이 바로 함정입니다. 기초적인 부분에 대해서는, 저희의 벡터 데이터베이스 가이드에서 왜 큐레이션된 임베딩이 더 저렴하게 유지되는지 설명하고 있습니다.

AgentCore 웹 검색과 벡터 저장소를 상호 보완적인 레이어로 사용하는 방법

MCP (Model Context Protocol)는 두 세계를 연결합니다. 결정론적 지식 쿼리(deterministic knowledge queries)는 Pinecone 또는 OpenSearch 벡터 저장소로 라우팅하고, 변동성이 큰 시장이나 뉴스 쿼리는 AgentCore 웹 검색으로 라우팅하는 데 이를 사용하세요. 어떤 계약(contract)을 적용할지는 모델이 아닌 라우터(router)가 결정합니다. 이 단일 레이어는 악순환이 시작되기 전에 이를 끊어줍니다. 더 깊은 패턴에 대해서는 당사의 Model Context Protocol 가이드를 참조하십시오.

핀테크 팀의 환각(hallucination) 발생률이 거의 세 배(4% → 11%)로 증가한 이유는 웹 검색이 RAG보다 나빠서가 아닙니다. 규제 인용(regulatory citations)은 웹 검색이 준수하도록 설계되지 않은 결정론적 검색 계약(deterministic retrieval contract)이기 때문입니다. 도구를 계약에 맞게 매칭하십시오.

MCP router directing deterministic queries to vector database and volatile queries to AgentCore web search

MCP 기반 라우터는 근거 부채 악순환(Grounding Debt Spiral)에 대비하는 가장 저렴한 보험입니다. 이는 어떤 도구가 실행되기 전에 각 쿼리에 어떤 검색 계약이 필요한지를 결정합니다.

실수 2 — 도구 호출 전 쿼리 재구성(Query Reformulation) 레이어의 부재

가공되지 않은 사용자의 의도(raw user intent)는 형편없는 웹 검색 쿼리를 만듭니다. '왜 내 송장이 틀렸지?'는 검색 문자열이 아니라 감정 상태입니다. 하지만 대부분의 AgentCore 배포 사례에서는 가공되지 않은 발화(raw utterance)를 웹 검색 도구에 그대로 전달하고, 왜 결과가 형편없는지 의아해합니다.

왜 가공되지 않은 사용자의 의도가 형편없는 웹 검색 쿼리가 되는가

내부 AWS 테스트 결과에 따르면, 사용자의 가공되지 않은 발화를 웹 검색 도구에 직접 전달하는 에이전트는 관련 있는 결과를 반환하는 비율이 61%에 불과했습니다. 반면 전용 쿼리 재구성(query-reformulation) 단계를 사용할 때는 84%였습니다. 이 23%포인트의 격차는 모델의 능력이 아니라 순수하게 아키텍처의 문제입니다. 재구성 노드(reformulation node)는 네트워크 호출이 발생하기 전에 의도를 정밀하고 키워드가 밀집되며 시간 제한이 있는 쿼리로 변환합니다. 이는 가장 저렴하게 얻을 수 있는 성과 중 하나임에도 불구하고, 대부분의 팀이 이를 건너뜁니다.

Claude 3.5 Sonnet 또는 Nova Pro를 사용한 쿼리 플래너 (Query Planner) 단계 구현

Anthropic의 공개된 에이전트 평가 (agent evals)에 따르면, 사고 사슬 (Chain-of-thought) 쿼리 플래너를 갖춘 Claude 3.5 Sonnet은 다단계 연구 작업에서 중복된 도구 호출 (Tool calls)을 38% 감소시킵니다. 이는 AgentCore에 직접적으로 적용 가능한 부분입니다. 플래너는 단 한 번 저렴하게 실행되며, 이후 단계에서 발생할 수 있는 세 번의 불필요한 웹 검색 호출을 절약해 줍니다.

python — 쿼리 재구성 (Query reformulation) 노드

쿼리 플래너 (Query planner) 노드: AgentCore 웹 검색 도구 실행

BEFORE (전)에 실행됩니다.

def reformulate_query(user_intent: str) -> str:
prompt = f'''사용자의 요청을 정밀한 웹 검색 쿼리로 다시 작성하세요.
규칙: 시간 범위를 추가하고, 감정적인 표현은 제거하며, 고유명사는 유지하세요.
사용자: {user_intent}'''

Bedrock을 통한 Claude 3.5 Sonnet — 결정론적 (Determinism) 결과를 위해 낮은 온도 (Temperature) 설정

resp = bedrock.invoke_model(
modelId='anthropic.claude-3-5-sonnet',
body={'temperature': 0.1, 'messages': [{'role':'user','content':prompt}]}
)
return resp['query'] # 예: 'SEC Rule 10b5-1 amendment 2025 effective date'

쿼리 재구성을 위한 LangGraph vs. AutoGen vs. 네이티브 AgentCore 오케스트레이션 (Orchestration) 비교

LangGraph의 StateGraph는 웹 검색 도구 상류 (Upstream)에 재구성 노드를 배치하는 가장 깔끔한 패턴을 제공합니다. 재구성된 쿼리가 결과가 없을 경우 명시적인 상태 롤백 (State rollback)이 가능하다는 장점이 있습니다. AutoGen의 중첩된 대화 (Nested conversation) 패턴도 실행 가능하지만, 재구성 사이클마다 200~400ms의 오버헤드가 추가되어 규모가 커질수록 성능 저하가 심각하게 누적됩니다. 지연 시간 (Latency)에 민감한 프로덕션 환경에서는 결정론적 측면에서 LangGraph가 승리합니다. 바로 사용할 수 있는 플래너 패턴이 필요하신가요? 즉시 적용 가능한 재구성 노드를 위해 저희의 AI 에이전트 라이브러리를 살펴보세요.

단 한 번의 웹 검색 호출 비용을 지불하기 전, 단 한 번 실행되는 쿼리 플래너를 통해 얻을 수 있는 정확도 23%포인트는 여러분이 구매할 수 있는 가장 저렴한 정확도입니다.

실수 3 — 도구 호출 예산 (Tool-Call Budget)을 무시하고 에이전트가 무한히 검색하게 두는 것

도구 호출 예산 (Tool-call budget)이 없는 에이전트는 무제한 법인카드를 가진 인턴과 같습니다. 모호한 질의에 대해 에이전트는 검색하고, 다시 검색하고, 또다시 검색할 것입니다. 호출할 때마다 비용이 청구되며, 호출할 때마다 압축되지 않은 산문(prose)으로 인해 컨텍스트 창 (context window)의 품질이 저하됩니다.

Amazon Bedrock AgentCore 웹 검색: 2025년에 피해야 할 6가지 값비싼 실수

요약

핵심 포인트