Monte Carlo: LangGraph와 LangSmith를 활용한 데이터 + AI 관측성 (Observability) 에이전트 구축

Monte Carlo는 기업을 위한 선도적인 데이터 + AI 관측성 (Observability) 플랫폼으로, 조직이 데이터 및 AI 신뢰성 문제를 모니터링하고 그 근본 원인 (root causes)을 추적할 수 있도록 지원합니다. 수년간 정교한 데이터 모니터링 및 트러블슈팅 (troubleshooting) 도구를 구축해 온 Monte Carlo는 자신들이 의도치 않게 자사의 핵심 AI 에이전트가 될 토대를 구축해 왔음을 깨달았습니다. 이 에이전트는 수백 개의 하위 에이전트 (sub-agents)를 실행하여 데이터 문제를 조사하고, 설득력 있고 실행 가능한 방식으로 근본 원인 분석을 가속화할 수 있는 시스템입니다.

엔터프라이즈 규모의 데이터 파이프라인 트러블슈팅 자동화

엔터프라이즈 조직의 데이터 엔지니어들은 데이터 경고 (alerts)를 수동으로 트러블슈팅하는 데 수많은 시간을 소비합니다. 실패한 작업 (jobs)을 조사하고, 코드 변경 사항을 추적하며, 문제가 즉각적인 해결이 필요한지 아니면 우선순위를 낮춰도 되는지를 결정해야 합니다. 이러한 수동 프로세스는 엔지니어가 단일 조사 경로를 순차적으로 따르도록 강제하며, 이로 인해 병렬적인 문제를 놓치거나 복잡하고 상호 연결된 데이터 시스템에서 근본 원인을 식별하는 데 너무 많은 시간이 걸리는 경우가 많습니다.

Monte Carlo의 고객은 주로 데이터가 상당한 수익을 창출하는 대규모 엔터프라이즈입니다. 이러한 고객들에게 부정확하거나 사용할 수 없는 데이터는 수백만 달러의 비즈니스에 영향을 미칠 수 있습니다. Monte Carlo는 포괄적인 트러블슈팅 도구를 구축해 왔지만, 이러한 "데이터 다운타임 (data downtime)"을 더욱 줄일 수 있는 기회를 포착했습니다. 즉, AI 에이전트가 수백 개의 가설을 동시에 처리하고 추론하게 함으로써, 데이터 + AI 팀이 특정 데이터 품질 사고 뒤에 숨겨진 근본 원인을 빠르게 발견하고 수정할 수 있는 능력을 가속화하는 것입니다.

LangGraph를 활용한 다중 경로 트러블슈팅

Monte Carlo는 AI 트러블슈팅 에이전트의 기반으로 LangGraph를 선택했습니다. 그 이유는 그들의 조사 프로세스가 그래프 기반의 의사 결정 흐름 (graph-based decision-making flow)에 자연스럽게 매핑되었기 때문입니다. 경고가 트리거되면, 그들의 시스템은 숙련된 데이터 엔지니어가 문제에 접근하는 방식을 대규모로 반영한 구조화된 트러블슈팅 방법론을 따릅니다.

경고(Alert) → 코드 변경 사항 확인(Check Code Changes) → 타임라인 분석(Analyze Timeline) → 의존성 조사(Investigate Dependencies) → 결과 보고(Report Findings)

그들의 LangGraph 구현은 경고에서 시작하여 조사 노드(investigation nodes)의 동적 그래프를 생성합니다. 각 노드는 발견된 내용에 따라 하위 노드(sub-nodes)를 생성할 수 있으며, 이를 통해 에이전트는 다음과 같은 작업을 수행할 수 있습니다:

지난 7일간의 코드 변경 사항 확인
특정 데이터 파이프라인에 영향을 미치는 변경 사항으로 범위 축소
문제 발생 몇 시간 전에 발생한 이벤트 조사
여러 잠재적 근본 원인을 동시에 조사

핵심 장점: 인간 트러블슈터가 한 번에 하나의 경로를 따르는 반면, Monte Carlo의 에이전트는 여러 조사 분기(investigation branches)를 병렬로 탐색할 수 있어, 개별 데이터 엔지니어가 수동으로 처리할 수 있는 것보다 훨씬 더 많은 시나리오를 확인할 수 있습니다.

Monte Carlo의 제품 관리자(Product Manager)인 Bryce Heltzel은 LangGraph의 가치가 시장 출시 속도(speed to market)를 달성하는 데 있었다고 언급했습니다. 주요 업계 서밋을 앞둔 촉박한 4주의 마감 기한 속에서, 팀은 고객들에게 에이전트를 시연할 수 있다는 자신감을 얻었습니다. 이는 자체 구축한 솔루션(custom-built solution)으로는 불가능했을 일입니다.

LangSmith를 활용한 디버깅 (Debugging with LangSmith)

Monte Carlo는 개발 첫날부터 LangSmith를 사용하여 디버깅을 시작했습니다. Heltzel은 다음과 같이 설명합니다. "LangGraph로 에이전트를 구축하기 시작했을 때 LangSmith는 자연스러운 선택이었습니다. 우리는 LangSmith를 통해 우리가 그래프 기반 워크플로(graph-based workflows)를 위해 개발하고 있는 내용을 시각화하고 싶었습니다."

제품 관리자로서 Heltzel은 에이전트의 프롬프트 엔지니어링(prompt engineering) 과정에 매우 깊이 관여하고 있습니다. 고객 사용 사례에 대한 깊은 맥락을 파악하고 있는 그는, 이제 엔지니어링 사이클을 거치지 않고도 프롬프트를 직접 빠르게 반복(iterate)할 수 있습니다.

Monte Carlo 팀은 LangSmith가 구동되는 데 필요한 설정이 최소화되어 있었기 때문에, 도구 설정보다는 에이전트 로직과 고객을 위한 데이터 문제 해결에 집중할 수 있었습니다.

Monte Carlo의 아키텍처 (Monte Carlo's architecture)

이 아키텍처는 여러 AWS 서비스를 활용하여 Monte Carlo의 기존 모놀리식 (Monolithic) 플랫폼과 새로운 AI 에이전트 (AI Agent) 스택을 연결하는 확장 가능하고 안전하며 결합도가 낮은 (Decoupled) 시스템을 구축합니다. 우리는 인프라를 관리할 필요 없이 에이전트에 최신 파운데이션 모델 (Foundational models)을 부여하기 위해 Amazon Bedrock을 사용합니다. Auth Gateway Lambda는 가벼운 서버리스 (Serverless) 진입점으로서 인증을 처리하며, 전용 서버를 유지 관리하지 않고도 안전한 액세스를 보장합니다. Monolith Service는 핵심 API (GraphQL 및 REST)를 계속 제공하며, 신뢰성과 자동화된 유지 관리를 제공하는 관리형 관계형 데이터베이스인 Amazon RDS에 애플리케이션 데이터를 영구적으로 저장합니다.

AI 측면에서는 AI Agent Service가 Amazon ECS Fargate에서 실행됩니다. 이를 통해 컨테이너화된 마이크로서비스 (Microservices)가 하위 인프라를 관리하지 않고도 자동으로 확장할 수 있습니다. AI Agent Service로 들어오는 트래픽은 네트워크 로드 밸런서 (NLB)를 통해 분산되어, Fargate 태스크 전반에 걸쳐 고성능의 저지연 라우팅을 제공합니다. 이러한 AWS 구성 요소들은 보안 인증, 탄력적인 데이터 저장 및 탄력적인 컴퓨팅 확장을 갖춘 상태에서 레거시 모놀리스와 현대적인 AI 마이크로서비스가 효율적으로 상호 운용되는 강력한 시스템을 구축합니다.

다음 단계 (What's next)

Monte Carlo는 현재 가시성 (Visibility)과 검증 (Validation)에 집중하고 있습니다. 즉, 트레이스 (Traces)의 어느 부분에서 버그가 발생하는지 이해하고, 에이전트가 고객에게 지속적으로 가치를 전달할 수 있도록 강력한 피드백 메커니즘을 구축하는 데 주력하고 있습니다. 이들은 에이전트가 각 조사 과정에서 근본 원인 (Root causes)을 성공적으로 식별하는지 측정하기 위한 검증 시나리오를 작업 중입니다.

앞으로 Monte Carlo는 핵심 가치 제안인 데이터 팀이 이전보다 더 빠르고 포괄적으로 문제를 해결할 수 있도록 지원하는 것을 유지하면서, 에이전트의 역량을 확장할 계획입니다. 데이터 + AI 관측성 (Observability) 도구를 구축하며 확보한 선점 효과는 LangGraph의 유연한 아키텍처 및 LangSmith의 디버깅 (Debugging) 기능과 결합되어, 이들이 데이터 + AI 관측성 분야를 지속적으로 선도할 수 있는 위치를 점하게 합니다.

Monte Carlo: LangGraph와 LangSmith를 활용한 데이터 + AI 관측성 (Observability) 에이전트 구축

요약

핵심 포인트

댓글