에이전틱 AI(Agentic AI) 베스트 프랙티스: 프로덕션 환경에서 신뢰할 수 있는 에이전트 배포하기

데모와 프로덕션 사이의 간극

관람 예약을 잡거나 임대 요약본을 초안하는 에이전트는 데모를 보여주기는 쉽지만, 실제로 배포하기는 어렵습니다. 데모는 사람이 지켜보는 가운데 깨끗한 입력값으로 단 한 번 실행됩니다. 하지만 프로덕션(Production)은 아무도 지켜보지 않는 상황에서 지저분한 실제 데이터를 가지고 하루에 수천 번 실행됩니다. 그리고 단 한 번의 잘못된 행동이 잘못된 세입자에게 이메일을 보내거나, 부동산 가격을 잘못 책정하거나, 발생해서는 안 될 결제를 유발할 수 있습니다.

이 간극을 메우는 것은 모델의 문제가 아니라 엔지니어링 규율(engineering-discipline)의 문제입니다. 아래는 VSBD가 PropTech 고객들을 위해 배포하는 모든 에이전틱 오케스트레이션 레이어(agentic orchestration layer)에 구축하는 관행이며, 이는 당사의 PropTech 2026 Awards 후보 지명 뒤에 있는 것과 동일한 작업입니다.

1. 결정 공간(Decision Space) 제한하기

완전한 자율성(Full autonomy)은 여러분이 원하는 결과인 경우가 드뭅니다. 부동산 워크플로우는 알려진 형태를 가지고 있습니다. 문서를 추출하기 전에 거의 항상 문서를 분류하며, 행동하기 전에 항상 검증합니다. 그 형태를 인코딩(Encode)하세요. 예측 가능한 워크플로우 부분에는 결정론적 라우팅(deterministic routing)과 명시적 상태 머신(explicit state machines)을 사용하고, 진정으로 모호한 단계에만 개방형 에이전트 추론(agent reasoning)을 할당하세요.

경험 법칙: 이득이 되는 곳에는 자율성을, 그 외의 모든 곳에는 결정론(determinism)을. 제거하는 자유도가 높을수록 더 이상 테스트할 필요가 없는 실패 유형이 줄어듭니다.

2. 모든 도구를 타입화된 계약(Typed Contract)으로 만들기

에이전트는 도구(tools)를 통해 세상에 작용합니다. 만약 도구가 자유 형식의 입력을 받고 자유 형식의 출력을 반환한다면, 잘못된 동작이 데이터베이스에 도달하기 전에 이를 잡아낼 방법이 없습니다. 양방향 모두에 대해 검증된 스키마(validated schema)를 모든 도구에 부여하세요:

(원문 기사의 다이어그램.)

이 단 하나의 결정이 "모델이 필드를 환각(hallucinated)했다"라는 범주의 문제 전체를 일반적이고 포착 가능한 유효성 검사 오류(validation errors)로 전환합니다. 또한 이는 에이전트를 이식 가능하게(portable) 만듭니다. 기반 모델을 교체하더라도 계약은 여전히 유지됩니다.

3. 모든 것을 검색된 데이터에 근거하기 (Ground Everything in Retrieved Data)

특정 속성에 대해 추론하는 에이전트는 사실 관계를 파악할 때 모델의 파라미터 메모리 (Parametric Memory)에 절대 의존해서는 안 됩니다. 임대차 계약서, 가치 평가 이력, 세입자 기록, 그리고 정책 문서를 검색(Retrieve)하고, 에이전트가 검색된 내용에 근거하여 출력을 생성하도록 요구하십시오. 근거 제시 (Grounding)는 그럴듯하게 들리는 답변을 방어 가능한 답변으로 바꾸는 핵심이며, 부동산 분야에서 방어 가능성은 곧 게임의 전부입니다.

4. 중대한 작업에는 인간 참여 (Human in the Loop) 포함하기

모든 작업이 동일한 수준의 신뢰를 받을 수는 없습니다. 문서를 읽는 것은 리스크가 낮지만(Low-stakes), 결제를 보내거나, 계약에 서명하거나, 세입자에게 메시지를 보내는 것은 그렇지 않습니다. 작업의 가역성(Reversibility)과 가치에 따라 작업을 분류하고, 결과가 중대한 작업에 대해서는 명시적인 인간의 승인을 요구하십시오.

이를 잘 수행한다면, 이는 마찰(Friction)이 아니라 레버리지 (Leverage)가 됩니다. 에이전트가 작업의 95%(수집, 초안 작성, 검토)를 수행하고, 사람은 처음부터 10분을 들여 작업하는 대신 완전히 준비된 작업을 승인하는 데 단 10초만 사용하게 됩니다. 모든 승인 내역은 로그로 기록되어, 컴플라이언스 (Compliance)를 위한 완전한 감사 추적 (Audit Trail)을 제공합니다.

5. 모든 실행 과정을 추적, 재생 및 평가하기

보이지 않는 것은 개선할 수 없습니다. 에이전트의 모든 단계를 계측(Instrument)하여 전체 실행 과정을 재생(Replay)하고 검사할 수 있도록 하십시오. 즉, 에이전트에게 무엇을 요청했는지, 무엇을 검색했는지, 어떤 도구(Tool)를 호출했는지, 그리고 무엇을 반환했는지를 확인해야 합니다. 그런 다음, 이미 검증된 결과가 있는 실제 사례들의 선별된 세트인 평가 스위트 (Evaluation Suite)를 통해 해당 실행들을 점수화하십시오.

평가 (Evals)는 비결정론적 시스템 (Non-deterministic Systems)을 위한 회귀 테스트 (Regression Test)입니다. 프롬프트 변경, 모델 업그레이드 또는 새로운 도구가 배포되기 전에, 반드시 평가 스위트를 통해 실행하여 이전에 통과했던 사례에서 퇴보하지 않았는지 확인하십시오. 이것이 없다면 프로덕션 에이전트에 대한 모든 변경은 도박과 같습니다.

6. 비용과 지연 시간을 의도적으로 제어하기

토큰 소모량과 응답 시간은 사후 고려 사항이 아니라 제품의 기능 (Product Features)입니다. 볼륨이 증가함에 따라 두 가지를 예측 가능하게 유지하는 제어 요소는 다음과 같습니다:

모델 라우팅 (Model routing) — 단순한 분류 작업은 작고 빠른 모델로 보내고, 가장 유능한 모델은 진정으로 어려운 추론 (reasoning)을 위해 남겨둡니다. 부동산 워크플로우의 대부분의 단계는 가장 큰 모델을 필요로 하지 않습니다.
프롬프트 캐싱 (Prompt caching) — 프롬프트의 안정적인 부분(시스템 지침, 정책 문서, 도구 정의)을 캐싱하여, 매 호출마다 이를 다시 처리하는 비용을 지불하지 않도록 합니다.
경계가 있는 컨텍스트 (Bounded context) — 워크플로우가 실행됨에 따라 프롬프트가 무제한으로 커지는 대신, 상태를 외부화하고 각 단계에 필요한 것만 검색합니다.
폴백 및 서킷 브레이커 (Fallbacks and circuit breakers) — 에이전트 또는 모델 호출이 실패할 때, 실패가 연쇄적으로 발생하는 대신 더 단순한 경로로 우아하게 전환(degrade gracefully)하거나 사람의 대기열(human queue)로 넘깁니다.

7. 조용히 처리하지 말고, 안전하게 실패하라 (Fail Safe, Not Silent)

도구 오류, 검증 실패, 모델 타임아웃 등 무언가 잘못되었을 때 가장 최악의 결과는 에이전트가 조용히 잘못된 일을 수행하는 것입니다. 모든 실패 경로를 추측하기보다는 중단하고 에스컬레이션(escalate)하도록 설계하십시오. 사람의 검토 대기열로 넘어가는 워크플로우는 사소한 불편함이지만, 임차인 기록을 조용히 손상시키는 워크플로우는 위기입니다.

결실 (The Payoff)

에이전틱 AI (Agentic AI)를 단순히 프롬프트 엔지니어링 (prompt-engineering) 연습으로 취급하는 팀은 인상적인 데모와 취약한 제품을 출시합니다. 반면, 이를 분산 시스템 (distributed-systems) 및 신뢰성 공학 (reliability-engineering) 문제로 취급하는 팀은 대규모 환경에서 관리 없이도 실행되는 에이전트를 출시합니다. 위의 관행들은 부동산 플랫폼이 일상적인 자산 운영의 상당 부분을 에이전트에게 맡기면서도 밤에 편히 잠들 수 있게 해주는 핵심 요소입니다.

VSBD는 유럽과 미국 전역의 프롭테크 (PropTech) 및 부동산 기업을 위해 프로덕션급 에이전틱 오케스트레이션 (agentic orchestration) 레이어를 구축합니다. 귀사의 컴플라이언스 팀이 신뢰하고 운영자가 의존할 수 있는 에이전트 레이어를 원하신다면, 처음부터 제대로 구축할 수 있도록 도와드리겠습니다.

원문은 VSBD 블로그에 게시되었습니다.