RAG는 임시방편였습니다. Amazon이 이를 공식화했습니다: 프로덕션 AI 기술 가이드

원문은 twarx.com에서 처음 게시되었습니다 - 전체 인터랙티브 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2025년 1월 14일

AI 기술은 계속해서 잘못된 문제를 해결하고 있습니다. 대부분의 팀은 모델의 정확도(accuracy)에 집착하지만, 병목 현상은 결코 모델의 문제가 아니었습니다. 그것은 에이전트(agent)와 실제 세상 사이의 조정(coordination) 문제였으며, 이는 프로덕션(production) 환경에서 문제가 발생하기 전까지는 아무도 도구화(instrument)하려 하지 않는 부분입니다. AWS는 방금 그 간극을 가시화했으며, 여러분이 이에 어떻게 대응하느냐에 따라 여러분의 에이전트가 실제 사용자와의 접점에서 살아남을지가 결정될 것입니다.

새로운 Amazon Bedrock AgentCore의 Web Search는 프로덕션 에이전트에게 오픈 웹(open web)으로 향하는 관리형 실시간 경로를 제공합니다. 관리해야 할 스크레이퍼(scraper) 함대도 필요 없습니다. 취약한 프록시 로테이션(proxy rotation)도 필요 없습니다. 그리고 오늘 아침에 무슨 일이 일어났는지 알고 있는 척 조용히 속이는 오래된 RAG 인덱스(index)도 필요 없습니다. 만약 여러분이 새벽 2시에 이를 디버깅해 본 적이 있다면, 그것이 얼마나 특별한 종류의 고통인지 알고 있을 것입니다. 이는 현대 AI 기술 스택에서 AgentCore Runtime, Memory, Gateway와 함께 일급 기본 요소(first-class primitive)로 자리 잡습니다.

이 글을 읽고 나면, 웹 검색(web search)이 에이전트 스택(agent stack)의 어디에 위치하는지, 이를 LangGraph나 CrewAI에 어떻게 연결하는지, 비용은 얼마인지, 그리고 신뢰성을 조용히 파괴하는 조정 실패(coordination failures)를 어떻게 피할 수 있는지 정확히 이해하게 될 것입니다.

Architecture diagram of Amazon Bedrock AgentCore Web Search connecting an AI agent to live web results

Amazon Bedrock AgentCore Web Search가 에이전트 추론 루프(reasoning loop)와 라이브 웹 사이에 어떻게 끼어드는지 — 정적 워크플로(static workflow)가 실시간 시스템이 되는 순간입니다. 출처

Amazon Bedrock AgentCore Web Search란 무엇이며 어떻게 작동하는가?

Amazon Bedrock AgentCore Web Search는 AgentCore가 호스팅하는 모든 에이전트가 최신의 순위가 매겨진 웹 검색 결과와 추출된 페이지 콘텐츠를 안전하게 가져올 수 있도록 하는 관리형 도구입니다. 이 도구는 내장된 스로틀링 (throttling) 기능을 갖추고 있으며, 사용자가 별도의 스크래핑 (scraping) 인프라를 운영할 필요가 없습니다. 이는 프로덕션 에이전트의 신선도 (freshness) 문제에 대한 AWS의 해답입니다. 즉, 전 세계의 데이터를 밤새 벡터 데이터베이스 (vector database)에 캐싱하는 대신, 에이전트가 통제 가능하고 감사 가능한 호출을 통해 필요할 때마다 라이브 웹에 접속하게 합니다.

다음은 대부분의 팀이 숨겨왔던 불편한 진실이자, 이번 출시가 단순한 변경 로그 항목 이상의 의미를 갖는 이유입니다. 에이전트에게 '최신 지식'을 제공하기 위한 지배적인 패턴인 '벡터 데이터베이스로의 야간 RAG 재색인 (re-index)'은 근본적으로 조정 방식의 임시방편 (workaround)입니다. 여러분이 전 세계의 데이터를 캐싱했던 이유는 라이브 웹에 접속하는 것이 운영상 고통스러웠고, 솔직히 팀의 누구도 스크래퍼 함대 (scraper fleet)를 관리하고 싶어 하지 않았기 때문입니다. AgentCore Web Search는 그 고통을 제거하며, 이는 곧 그 변명이 더 이상 통하지 않음을 의미합니다.

RAG는 결코 검색 (retrieval)에 관한 것이 아니었습니다. 그것은 조정 (coordination)에 관한 것이었습니다. 라이브 세상에 접속하는 비용이 너무 많이 들었기 때문에 구축한 캐시였을 뿐입니다. 관리형 웹 검색은 방대한 범주의 쿼리에 대해 그 변명을 무용지물로 만들었습니다.

왜 하필 지금 이 기능이 등장했을까요? 에이전트 생태계가 마침내 표준화되었기 때문입니다. 2024년 11월에 발표된 Anthropic의 Model Context Protocol (MCP)는 도구들에 공통 인터페이스를 제공했습니다. LangGraph, CrewAI, 그리고 AutoGen은 도구 호출 (tool-calling) 루프로 수렴했습니다. 여기서 부족했던 것은 기업 보안 팀이 실제로 승인할 수 있는 신뢰할 수 있고 통제 가능한 실시간 데이터 프리미티브 (primitive)였습니다. 이것이 바로 이 AI 기술이 메우고 있는 간극입니다.

$184B
2025년 예상되는 전 세계 생성형 AI 지출액, 전년 대비 급격히 증가
[Statista, 2024](https://www.statista.com/outlook/tmo/artificial-intelligence/generative-ai/worldwide)
...

그 83%라는 숫자는 이 글의 전체 논지를 하나의 통계치로 압축한 것입니다. 시니어 엔지니어들은 모델의 정확도 (accuracy)에 집착합니다. 하지만 에이전트 (agent)가 검색 (search), 파싱 (parse), 추론 (reason), 검증 (validate), 실행 (act), 요약 (summarize)이라는 6개의 도구 호출 (tool calls)을 체인 형태로 연결할 때, 각 단계의 신뢰도가 97%라 하더라도 시스템이 정확한 결과를 내놓는 확률은 83%에 불과합니다. 0.97의 6제곱은 0.83이며, 산술적인 문제를 구해낼 수 있는 프롬프트 (prompt)는 세상 어디에도 없기 때문입니다. 실패는 단일 구성 요소 내에서 발생하는 것이 아니라, 그 사이의 이음새 (seams)에서 발생합니다. 이것이 바로 AgentCore Web Search가 노출하는 문제이자, 올바르게 사용되었을 때 해결을 돕는 문제입니다.

정립된 프레임워크

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (AI Coordination Gap)란 개별 모델이나 도구 내부가 아니라, 그들 사이의 인계 (handoffs) 과정에서 발생하는 체계적인 신뢰성 손실을 의미합니다. 이 과정에서 상태 (state), 최신성 (freshness), 그리고 의도 (intent)가 소리 없이 저하됩니다. 이는 최첨단 모델을 사용하는 에이전트들이 왜 여전히 프로덕션 (production) 환경에서 실패하는지를 설명해 줍니다. 즉, 아무도 이 이음새 (seams)를 엔지니어링하고 있지 않기 때문입니다.

AI 기술이 현재 라이브 웹에 도달하는 방식: AgentCore 조정 격차 프레임워크

저는 Fortune 500 규모의 에이전트 시스템을 출시해 왔으며, 다음과 같은 패턴이 잔혹할 정도로 일관되게 반복되는 것을 목격했습니다. 팀들은 프롬프트 엔지니어링 (prompt engineering)과 모델 선택에 수개월을 쏟아붓지만, 정작 에이전트가 모델과는 전혀 상관없는 이유로 프로덕션 환경에서 무너지는 것을 지켜보게 됩니다. 모델은 괜찮았습니다. 조정 (coordination)이 문제였습니다.

AI 조정 격차는 다섯 가지의 뚜렷한 계층으로 나뉩니다. AgentCore의 Web Search는 이 모든 계층을 다룹니다. 이것이 바로 Web Search가 이 프레임워크를 설명하기 위한 완벽한 렌즈인 이유입니다. 각 계층과 새로운 AI 기술이 이를 정확히 어떻게 해결하는지 설명하겠습니다.

실시간 에이전트에서의 AI 조정 격차의 5가지 계층

  1

    **최신성 계층 (Freshness Layer) — AgentCore Web Search**

에이전트가 실시간 데이터가 필요하다고 판단하여 검색 쿼리 (search query)를 발행합니다. 입력: 자연어 형태의 정보 요구 사항. 출력: 순위가 매겨진 최신 결과 및 추출된 페이지 콘텐츠. 지연 시간 (latency) 목표: 검색 왕복 (round trip) 2초 미만. 이곳은 데이터의 노후화 (staleness)가 사라지거나, 혹은 전파되는 지점입니다.

↓

  2
...

Raw HTML이 깨끗하고 출처를 확인할 수 있는 텍스트로 변환됩니다. 입력(Input): 검색 결과. 출력(Output): 소스 URL이 포함된 구조화된 구절(passages). 만약 근거 설정 (grounding)에 실패하면, 모델은 노이즈가 섞인 콘텐츠를 바탕으로 환각 (hallucination)을 일으킵니다. 이것이 대부분의 RAG 대체 시스템들이 조용히 무너지는 지점입니다.

↓

  3
...

모델 (Claude, Nova 등)이 근거가 확보된 구절 (grounded passages)과 이전 메모리를 바탕으로 추론합니다. 입력 (Input): 구절 + AgentCore 메모리 상태. 출력 (Output): 결정 또는 부분적인 답변. 여기서 발생하는 조정 격차 (Coordination Gap)는 의도 표류 (intent drift)입니다. 즉, 모델이 왜 검색을 했는지 그 이유를 잊어버리는 현상입니다.

↓

  4
...

도구 간의 라우팅 (routes), 재시도 (retries), 그리고 하위 에이전트 (sub-agents)를 다룹니다. 입력 (Input): 모델의 결정. 출력 (Output): 다음 행동. 이것은 이음새 관리 계층 (seam-management layer)입니다. 단계별 97%의 정확도가 누적되어 발생하는 복리 문제 (compounding problem)가 통제되느냐, 아니면 걷잡을 수 없이 커지느냐가 결정되는 지점입니다.

↓

  5
...

인증 (auth), 속도 제한 (rate limits), 감사 로그 (audit logging), 그리고 비용 가드레일 (cost guardrails)을 강제합니다. 입력 (Input): 모든 도구 호출. 출력 (Output): 규정을 준수하고 추적 가능한 실행 기록. 이것이 없다면 격차를 메우기는커녕, 격차가 존재하는지조차 확인할 수 없습니다.

각각의 인계 (handoff) 과정이 잠재적인 실패 지점이 되기 때문에 이 순서는 매우 중요합니다. 조정 격차 (Coordination Gap)는 단일 박스의 문제가 아니라, 다섯 개의 모든 이음새 (seams)를 거치며 발생하는 누적 손실입니다.

불안정한 에이전트를 개선하기 위해 할 수 있는 가장 영향력 있는 단일 변화는 더 나은 모델을 사용하는 것이 아닙니다. 바로 2단계 (Grounding)에 검증 단계를 추가하는 것입니다. 제가 실제로 배포했을 때, 인용 검증 게이트 (citation-verification gates)를 도입함으로써 모델 변경 없이도 환각 (hallucination) 발생 사례를 약 60% 줄일 수 있었습니다.

계층 1: 신선도 계층 (The Freshness Layer)

이곳에 AgentCore 웹 검색 (Web Search)이 위치합니다. 이번 출시 전까지 여러분의 선택지는 암울했습니다. 스크래퍼 함대 (scraper fleet)를 운영하거나 (거절을 가장 못 하는 쪽을 타겟으로 삼는 법적, 운영적 악몽입니다), 제3자 검색 API를 호출할 때마다 비용을 지불하며 직접 키를 관리하거나, 혹은 매일 밤 진행되는 Pinecone 재색인 (re-index)이 '실시간'인 척 위장하는 것뿐이었습니다. 이 중 그 어느 것도 기본적으로 관리되지 않습니다. AgentCore 웹 검색은 관리형 도구입니다. AWS가 스로틀링 (throttling), 로테이션 (rotation), 결과 순위 지정 (result ranking), 그리고 콘텐츠 추출을 처리합니다. 여러분의 에이전트는 그저 이를 호출하기만 하면 됩니다.

신선도 계층 (freshness layer)은 정확히 단 하나의 질문에 답합니다: 이 에이전트는 지금 무엇이 사실인지 알고 있는가? 가격, 뉴스, 가용성, 경쟁사의 움직임, 규제 변화와 같이 시간에 민감한 모든 사항에 대해, 캐시된 벡터 인덱스 (cached vector index)는 구조적으로 잘못되었습니다. 그것은 오직 자신이 학습(ingested)한 내용만을 알 수 있습니다. 그것으로 끝입니다.

레이어 2: 그라운딩 계층 (The Grounding Layer)

모델이 검색 결과의 출처를 밝힐 수 없다면 그 결과는 무용지물입니다. AgentCore Web Search는 추출된 페이지 콘텐츠를 반환하며, 여러분은 이를 명시적인 소스 URL과 함께 그라운딩된 컨텍스트 (grounded context)로서 모델에 제공합니다. 여기서의 원칙은 다음과 같습니다: 인용 (citations)을 전달하지 않고 모델이 답변하게 두지 마십시오. 이것이 제대로 된 RAG (RAG done right)와 자신만만한 거짓말쟁이 사이의 차이점입니다. 저는 팀들이 이 단계를 건너뛰었다가, 사실은 내내 통제되지 않은 그라운딩 문제였던 환각 (hallucinations)을 디버깅하는 데 몇 주를 허비하는 것을 보았습니다.

레이어 3: 추론 계층 (The Reasoning Layer)

여러분의 Bedrock 파운데이션 모델 (foundation model)은 그라운딩된 구절들과 AgentCore Memory가 대화에 대해 보유하고 있는 모든 정보를 바탕으로 추론합니다. 이 레이어에서의 조정 격차 (Coordination Gap)는 의도 표류 (intent drift) 입니다. 즉, 에이전트가 한 가지를 검색했으나 노이즈가 섞인 결과를 얻게 되고, 조용히 다른 질문에 답변해 버리는 현상입니다. 완화 방법: 원래의 작업을 모델이 자신의 답변과 대조하여 확인해야 하는 불변량 (invariant)으로 전달하십시오. 간단합니다. 효과적입니다. 대부분의 팀은 이를 수행하지 않습니다.

레이어 4: 오케스트레이션 계층 (The Orchestration Layer)

이곳은 LangGraph (프로덕션 준비 완료), CrewAI (프로덕션 준비 완료), 그리고 AutoGen (연구 중심적이며 빠르게 성숙 중)과 같은 프레임워크들이 제 역할을 다하는 곳입니다. 이들은 언제 검색을 호출할지, 언제 재시도할지, 그리고 언제 사람에게 에스컬레이션 (escalate)할지를 결정합니다. AgentCore Runtime은 세션 격리 (session isolation)와 스케일링 (scaling)을 대신 처리하며 이러한 그래프들을 호스팅합니다.

새로 만들어진 프레임워크

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (The AI Coordination Gap)는 개별적으로는 매우 뛰어난 컴포넌트들의 스택이 왜 평범한 시스템을 만들어내는지를 설명하는 이유입니다. 이는 모델을 업그레이드함으로써 해결되는 것이 아니라, 검증 게이트 (validation gates), 의도 불변성 (intent invariants), 그리고 모든 접점에서의 관찰 가능성 (observability)과 같이 핸드오프 (handoffs, 인계 과정)를 강화함으로써 해결됩니다.

레이어 5: 거버넌스 레이어 (The Governance Layer)

기업 보안 팀이 가장 신경 쓰는 레이어이자, 개인 개발자들이 예상치 못한 AWS 청구서를 받기 전까지는 존재 자체를 잊어버리는 레이어입니다. AgentCore Identity와 관찰 가능성 (observability)은 모든 웹 검색 호출에 대해 인증 범위 지정 (auth scoping), 감사 추적 (audit trails), 그리고 비용 가드레일 (cost guardrails)을 제공합니다. 이것이 없다면, 에이전트 루프 (agent loop)는 누군가 알아차리기도 전에 폭주하는 검색 호출로 월 4,000달러를 태워버릴 수 있습니다. 저는 실제로 그런 일이 일어나는 것을 목격했으며, 사후 분석 (postmortem) 과정은 결코 즐겁지 않았습니다. 프로덕션 (production)에 투입한 후가 아니라, 투입하기 전에 가드레일을 설정하십시오.

Five-layer stack diagram showing the AI Coordination Gap across freshness, grounding, reasoning, orchestration and governance

5개 레이어 스택으로 시각화한 AI 조정 격차 (The AI Coordination Gap) — 신뢰성은 레이어 내부가 아니라 레이어 사이의 접점(seams)에서 상실됩니다. 이것이 모델 업그레이드만으로는 프로덕션 에이전트 (production agents) 문제를 해결하기 어려운 이유입니다.

실시간 AI 에이전트에 대해 대부분의 사람들이 잘못 알고 있는 것

여기 역설적인 관점이 있습니다: AI 기술로 승리하는 기업은 최고의 모델을 가진 기업이 아니라, 조정 (coordination)을 핵심적인 엔지니어링 문제로 취급한 기업입니다.

업계는 2024년과 2025년 대부분을 모델 군비 경쟁에 소비했습니다. 더 큰 컨텍스트 윈도우 (context windows), 더 높은 MMLU 점수, 더 저렴한 토큰 (tokens)에 집중했습니다. 그럼에도 불구하고 Gartner는 2027년까지 에이전트형 AI (agentic AI) 프로젝트의 40%가 취소될 것이라고 예측합니다. 모델이 나빴기 때문이 아닙니다. 모델을 둘러싼 시스템이 제대로 설계되지 않았기 때문이며, 망가진 핸드오프 (handoffs)에 연결된 아름다운 모델은 여전히 망가진 제품일 뿐입니다. 조정 격차 (Coordination Gap)가 그들을 집어삼킨 것입니다.

당신은 모델의 문제를 겪고 있는 것이 아닙니다. 당신은 이음새 (seams)의 문제를 겪고 있는 것입니다. 정확도는 결코 박스 (box) 안에 있었던 적이 없습니다. 그것은 항상 당신이 계측 (instrument)하지 않은 핸드오프 (handoffs) 과정에 있었습니다.

RAG는 임시방편였습니다. Amazon이 이를 공식화했습니다: 프로덕션 AI 기술 가이드

요약

핵심 포인트

Amazon Bedrock AgentCore Web Search란 무엇이며 어떻게 작동하는가?

AI 조정 격차 (The AI Coordination Gap)

AI 기술이 현재 라이브 웹에 도달하는 방식: AgentCore 조정 격차 프레임워크

계층 1: 신선도 계층 (The Freshness Layer)

레이어 2: 그라운딩 계층 (The Grounding Layer)

레이어 3: 추론 계층 (The Reasoning Layer)

레이어 4: 오케스트레이션 계층 (The Orchestration Layer)

AI 조정 격차 (The AI Coordination Gap)

레이어 5: 거버넌스 레이어 (The Governance Layer)

실시간 AI 에이전트에 대해 대부분의 사람들이 잘못 알고 있는 것

댓글