Netomi의 에이전트 시스템을 엔터프라이즈 규모로 확장하기 위한 교훈

요약

본 글은 Netomi가 유나이티드 항공(United Airlines) 및 DraftKings 같은 Fortune 500 고객사를 대상으로 에이전트 기반 AI 시스템을 엔터프라이즈 환경에 성공적으로 확장한 핵심 노하우를 담고 있습니다. 복잡하고 변동성이 큰 실제 업무 흐름(예: 예약 엔진, CRM, 결제 시스템 연동)에서 신뢰성을 확보하기 위해 GPT-4.1과 GPT-5.2를 활용하는 이중 모델 전략을 사용합니다. 특히, 실시간 응답 속도와 대규모 트래픽 처리 능력을 보장하기 위해 동시성(Concurrency) 아키텍처를 설계했으며,

핵심 포인트

GPT-4.1의 낮은 지연 시간과 예측 가능한 툴 호출 기능을 활용하여 실시간 워크플로우의 신뢰성을 확보하고, GPT-5.2로 깊이 있는 다단계 계획(multi-step planning)을 수행합니다.
엔터프라이즈급 에이전트 시스템은 단순한 API 연결을 넘어 예약 엔진, CRM, 결제 등 여러 시스템 간의 복잡하고 불완전한 데이터를 처리할 수 있어야 합니다.
DraftKings와 같은 환경에서 40,000 TPS 이상의 트래픽 급증에도 불구하고 3초 미만의 응답 시간과 98%의 의도 분류 정확도를 유지했습니다.
AI 시스템의 신뢰성 확보를 위해 거버넌스(Governance) 레이어를 런타임에 내장하여 스키마 유효성 검사, 정책 강제 적용, PII 보호 등의 기능을 수행합니다.

기업들은 AI 에이전트가 복잡한 워크플로우(messy workflows)를 안정적으로 처리하고, 기본 정책(policies)을 준수하며, 높은 부하(heavy load)에서 작동하고, 그 과정을 투명하게 보여주기를 기대합니다.

Netomi는 이러한 높은 기준을 충족하는 시스템을 구축하여 유나이티드 항공(United Airlines)이나 드래프트킹스(DraftKings) 같은 포춘 500대 기업 고객들에게 서비스를 제공하고 있습니다. 이들의 플랫폼은 저지연(low-latency)의 신뢰성 있는 도구 사용을 위해 GPT-4.1과, 더 깊고 다단계적인 계획 수립을 위해 GPT-5.2를 결합합니다. 이 모든 것은 모델 기반 액션(model-driven actions)이 실제 운영 환경(real production conditions)에서 예측 가능하도록 설계된 거버넌스 실행 계층(governed execution layer) 내에서 작동합니다.

이러한 규모로 에이전트 시스템을 운영하면서 Netomi는 엔터프라이즈 내부에서 이러한 배포가 성공적으로 이루어지기 위한 청사진(blueprint)을 얻게 되었습니다.

“우리의 목표는 인간 에이전트가 일반적으로 여러 가지 작업을 처리하는 것을 오케스트레이션하고, 이를 기계 속도(machine speed)로 안전하게 수행하는 것이었습니다.”

단일 기업 요청은 거의 단일 API에 매핑되지 않습니다. 실제 워크플로우는 예약 엔진(booking engines), 로열티 데이터베이스(loyalty databases), CRM 시스템, 정책 논리(policy logic), 결제 시스템(payments), 지식 소스(knowledge sources) 등 여러 곳에 걸쳐 있습니다. 데이터는 종종 불완전하거나, 상충되거나, 시간 민감적입니다. 이러한 가변성(variability) 앞에서는 취약한 흐름(brittle flows)에 의존하는 시스템은 무너집니다.

Netomi는 OpenAI 모델이 이러한 수준의 모호성(ambiguity)을 위해 설계된 거버넌스 오케스트레이션 파이프라인(governed orchestration pipeline)의 중심에 위치하도록 에이전트 OS(Agentic OS)를 설계했습니다. 이 플랫폼은 실시간 워크플로우에 필수적인 빠르고 신뢰할 수 있는 추론 및 도구 호출을 위해 GPT-4.1을 사용하며, 다단계 계획이나 더 깊은 추론이 필요할 때 GPT-5.2를 사용합니다.

길고 복잡한 작업 전반에 걸쳐 일관된 에이전트 동작을 보장하기 위해 Netomi는 OpenAI가 권장하는 에이전트 프롬프팅 패턴(agentic prompting patterns)을 따릅니다:

GPT-5.2가 길고 다단계적인 워크플로우 전반에 걸쳐 추론을 유지하도록 돕는 지속성 리마인더(Persistence reminders)
명시적인 도구 사용 기대치 설정: 거래적 작업(transactional operations) 중 권위 있는 정보를 위해 GPT-4.1이 도구를 호출하도록 유도하여 환각된 답변(hallucinated answers)을 억제합니다.
구조화된 계획 수립(Structured planning): GPT-5.2의 깊은 추론 능력을 활용하여 다단계 작업을 개요화하고 실행합니다.
에이전트 주도 풍부 미디어 결정(Agent-driven rich media decisions): 도구 호출이 이미지, 비디오, 양식 또는 기타 풍부한 멀티모달 요소(rich, multimodal elements)를 반환해야 하는지 감지하고 신호를 보내는 데 GPT-5.2에 의존합니다.

이러한 패턴들은 모델이 구조화되지 않은 요청을 다단계 워크플로우로 안정적으로 매핑하고, 단절적인 상호작용(discontinuous interactions) 전반에 걸쳐 상태를 유지하도록 돕습니다.

여러 시스템과 정책 계층에 걸쳐 한 번의 상호작용만으로도 업무가 진행되는 항공업계만큼 다단계 추론의 필요성을 명확하게 드러내는 산업은 드뭅니다. 단 하나의 질문이 운임 규정(fare rules)을 확인하고, 로열티 혜택을 재계산하며, 티켓 발권(tick[et])을 시작하는 것을 요구할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Netomi의 에이전트 시스템을 엔터프라이즈 규모로 확장하기 위한 교훈

요약

핵심 포인트

댓글