AI 에이전트가 '작동하고 있다'는 것이 가장 위험하다 — 엔터프라이즈를 위한 의사결정 추적형 옵저버빌리티(Observability) 설계 - Insights | Molayo

AI 에이전트가 '기술적으로는 정상'이지만 '업무적으로 잘못된 판단'을 하는 문제
기존의 애플리케이션 모니터링(Latency, Error Rate)으로는 포착할 수 없는 에이전트의 의사결정 추적 방법
로그 설계 (Trigger → Prompt → 획득한 Context → 모델 응답 → Tool 호출 → Policy 평가 → 승인 → 최종 Action)
3계층 메트릭스 설계 (기술·품질·비즈니스)
드리프트(Drift) 탐지 및 알람 설계의 실무 포인트
과도한 로그로 인한 리스크와 리스크 계층에 따른 설계의 균형

어느 경리 팀이 월말 결산을 지원하는 AI 에이전트를 도입했다. 에이전트는 ERP에서 데이터를 가져오고, 메일 첨부된 스프레드시트를 읽으며, 각 계정 과목의 코멘트를 자동으로 생성한다. 에러는 제로. API 타임아웃도 없다. 대시보드는 모두 초록색이다.

3사이클 후, 경리 책임자는 깨닫는다 — 여러 계정 과목에서 오래된 데이터를 사용한 코멘트가 생성되어 있었다. 에이전트는 올바른 Tool을 호출했고, 기술적으로는 단 한 번도 실패하지 않았다. 하지만 업무적으로 잘못된 판단을 하고 있었다.

이것이 프로덕션 환경에서 에이전트 시스템이 가진 본질적인 문제다. 질문은 "시스템이 작동하고 있는가"에서 "에이전트가 실제로 무엇을 했는가, 왜 그것을 했는가, 결과는 좋았는가, 언제 멈춰야 하는가"로 바뀐다. 이 질문에 답할 수 없다면 설명 책임(Accountability)은 성립되지 않으며, 설명 책임이 없는 자율성은 관리 불가능한 리스크로 전락한다.

기존의 엔터프라이즈 옵저버빌리티(Enterprise Observability)는 Latency, Error Rate, DB 속도와 같은 기술적 건전성에 초점을 맞춰왔다. 에이전트 시스템에는 그것만으로는 불충분하다. 에이전트는 결정론적인(Deterministic) 코드만을 실행하는 것이 아니다. 추론하고, Tool을 선택하고, Context를 가져오고, 시스템을 호출하고, 메모리를 사용하며, 확률적인(Probabilistic) 출력을 생성한다. 동일한 입력이라도 실행할 때마다 서로 다른 판단 경로를 따른다. 옵저버빌리티는 기술적으로 무엇이 일어났는가, 에이전트가 무엇을 판단했는가, 그 판단이 비즈니스 성과와 정책 준수에 어떻게 영향을 미쳤는가라는 3계층을 동시에 답변할 수 있어야 한다.

어려움의 본질은 기술이 새롭기 때문이 아니다. 관측 대상 그 자체가 근본적으로 복잡하기 때문이다.

표준적인 애플리케이션에서 실행 흐름은 선형적이다: 요청 수신 → 처리 → DB 읽기 → 응답 반환. 장애가 발생하면 로그와 메트릭스, Span을 추적하여 병목 지점을 특정할 수 있다.

에이전트 시스템은 다음과 같은 요소들이 레이어 형태로 쌓인다:

사용자, 이벤트, 워크플로우로부터의 Trigger
태스크를 분해하는 오케스트레이터(Orchestrator)
RAG나 메모리로부터의 Context 획득
모델이 생성하는 추론 및 계획
순차적인 Tool 호출
Policy 엔진에 의한 평가
인간에 의한 승인 게이트(Approval Gate)
최종 Action 또는 에스컬레이션(Escalation)

까다로운 점은, 장애가 기술적 에러로 나타나기 어렵다는 것이다. 에이전트는 모든 API를 정상적으로 호출할 수 있지만, 잘못된 Action을 선택한다. 크래시(Crash)는 나지 않지만, 오래된 Context를 사용한다. 기술적으로는 통과하지만, 정책을 위반한다. 태스크는 완료되지만, 판단 품질이 낮다. 그럴듯하지만 업무적으로 잘못된 출력을 생성한다.

이러한 확률적 성질이 모니터링 방법을 바꾼다. 동일한 Prompt, Tool, 데이터라도 출력은 변동한다. 에러 코드에만 의존할 수 없다. 행동 패턴을 모니터링해야 한다. 환불 에이전트가 기술적으로 단 한 번도 실패하지 않더라도, 이전에는 자동 처리하던 케이스를 에스컬레이션하기 시작한다 — 이는 생산성을 조용히 저하시키는 행동 드리프트(Behavioral Drift)다. 조달 에이전트는 계속해서 요청을 생성하지만, 취득 정책의 변경으로 인해 더 보수적인 승인 경로를 선택하기 시작한다. 기술적 인시던트는 없지만, 사이클 타임은 악화된다.

엔터프라이즈에서 옵저버빌리티는 단순한 운영 도구가 아니다. 거버넌스(Governance)의 메커니즘이다. 리스크 관리, 감사, 컴플라이언스, 프로세스 소유자는 다음 질문에 답할 수 있어야 한다: 에이전트는 어떤 Context를 사용했는가, 어떤 Tool을 호출했는가, 어떤 Policy가 적용되었는가, 언제 정지하여 승인을 요청했는가, 누가 출력을 수정했는가, 그 판단이 비즈니스 트랜잭션에 어떻게 영향을 미쳤는가. 이 체인을 재구축할 수 없다면 인시던트 조사, 감사, 품질 평가, 모델 개선, 자율성 확대를 위한 기반은 존재하지 않는다.

가장 흔한 실수는 Prompt와 응답만을 로그하는 것이다. 엔터프라이즈 용도에서는 그것은 위험할 정도로 얕다. 에이전트 시스템의 적절한 로그는 엔드 투 엔드(End-to-End) 판단 트레일(Decision Trail)을 포착해야 한다. 다음의 6가지 구성 요소가 중요하다.

워크플로우가 어떻게 시작되었는지——사용자, 시스템 이벤트, 스케줄, 또는 다른 에이전트로부터의 핸드오프(Handoff)인지 기록한다. 발행 주체(Principal), 시각, 채널, 관련 비즈니스 객체(송장 번호, 티켓 ID, 주문 ID)를 기록한다.

모든 세부 사항이 필요하지는 않지만, 어떤 시스템 지시(System Instruction)가 활성화되었는지, 어떤 파라미터(Parameter)가 사용되었는지, 어떤 프롬프트(Prompt) 또는 워크플로우 버전이 실행되었는지, 어떤 모델 설정이 적용되었는지 이해할 수 있는 수준의 정보가 필요하다. 이는 에이전트 버전 간의 비교나 동작 변화를 조사할 때 필수적이다.

RAG, 지식 그래프(Knowledge Graph), 메모리(Memory)를 사용하는 경우, 어떤 문서 또는 컨텍스트 청크(Context Chunk)가 검색되었는지, 그 소스, 버전 또는 타임스탬프(Timestamp), 그리고 액세스(Access)가 권한 체크를 통과했는지를 로그로 남긴다. 이것 없이는 에이전트가 특정 판단을 내린 이유를 설명할 수 없다.

가공되지 않은 사고 사슬(Chain-of-Thought)은 불필요하지만, 감사(Audit)와 디버깅(Debugging)에 충분한 정보는 필요하다: 액션 계획(Action Plan)의 요약, 의도 분류(Intent Classification), 신뢰도 시그널(Confidence Signal), 후속 단계에서 사용되는 구조화된 판단 출력. 책임 추적성을 위해 충분한 양을 저장하되, 기밀 데이터나 지적 재산의 유출은 피해야 한다.

모든 도구 호출(Tool Call)에 대해 기록해야 할 항목: 어떤 도구인지, 주요 파라미터, 성공/실패 여부, 레이턴시(Latency), 재시도(Retry) 횟수, 대상 시스템의 상태 변화. 재무 결산, IT 운영, 조달 워크플로우에서는 여기서 에이전트가 업무 현실에 영향을 미치기 시작한다.

정책 엔진(Policy Engine), 승인 워크플로우, 가드레일(Guardrail)이 관여한 경우 이를 로그로 남긴다: 어떤 정책이 평가되었는지, 결과(허용, 거부, 에스컬레이션, 승인 요청), 인간 승인자는 누구인지, 최종 판단, 실제로 실행된 액션. 이 계층이 없다면 그것은 기술 로그일 뿐 거버넌스(Governance) 로그가 아니다.

로그가 늘어나면 데이터 노출 리스크도 증가한다. 에이전트 시스템은 고객 데이터, 급여 정보, 벤더 상세 정보, 계약서, 재무 데이터, 내부 인시던트(Incident) 기록에 접근한다. 다음과 같은 설계가 필요하다:

기밀 데이터의 리덕션 (Reduction)
식별자의 토큰화(Tokenization) 또는 마스킹(Masking)
**액세스 제어(Access Control)**가 적용된 안전한 스토리지
명확한 보유 정책 (Retention Policy)
직무 분리 (Separation of Duties) (로그 작성자와 열람자를 분리)

감사 가능성을 높이는 것이 폭발 반경(Blast Radius)을 확대하는 것과 동의어는 아니다.

로그와 트레이싱(Tracing) 다음은 메트릭(Metrics)이다. 많은 구현 사례가 레이턴시와 에러율(Error Rate) 수준에서 멈추며 이를 '관측 가능'하다고 선언한다. 에이전트 시스템에는 명확히 분리된 세 가지 메트릭 그룹이 필요하다.

단계별 및 엔드 투 엔드(End-to-End) 레이턴시
토큰 또는 트랜잭션당 비용
도구 에러율, 재시도율, 타임아웃(Timeout)율
폴백(Fallback) 사용률, 장애 모드 분포
모델 게이트웨이, 벡터 스토어, 정책 엔진, 도구 레지스트리의 가용성

이것들은 플랫폼 팀이 안정성을 유지하는 데 도움이 되지만, 에이전트가 신뢰할 수 있는지는 알려주지 않는다.

이것이야말로 에이전트 옵저버빌리티(Agent Observability)를 애플리케이션 옵저버빌리티(Application Observability)와 구분 짓는 요소다:

기대되는 결과에 대한 정확성
할루시네이션(Hallucination) 또는 근거 없는 답변율
에스컬레이션(Escalation)율
정책 위반율
인간에 의한 수정율
에이전트 액션 후의 재작업(Rework)율
도구 선택의 정확성
검색된 컨텍스트에 대한 그라운딩(Grounding) 품질

일부 품질 메트릭은 완전히 자동화할 수 없다. 자동 평가, 수동 샘플링, 사용자 피드백, 도메인 전문가 리뷰의 조합이 필요하다.

에이전트가 실제로 업무를 개선하고 있는지 측정한다:

사이클 타임(Cycle Time)
트랜잭션당 비용
해결률(Resolution Rate)
터치리스(Touchless)율 (인간의 개입 없이 완료된 비율)
백로그(Backlog) 감소
수익 또는 운전 자본에 미치는 영향
고객 또는 직원 만족도

에이전트가 기술적으로 건전하고 품질 점수가 높더라도, 케이스당 비용이 낮아지지 않고 백로그가 개선되지 않는다면 설계 재검토가 필요하다.

이 세 그룹은 분리하여 관리해야 한다. 혼재시키면 근본 원인 진단이 어려워진다. 레이턴시 스파이크는 기술적 문제다. 인간 수정율의 상승은 품질 문제다. 사이클 타임의 정체는 비즈니스 또는 프로세스 설계의 문제다. 이들은 연관되어 있지만 동일하지는 않다.

메트릭이 정의되면 무엇을 지속적으로 모니터링하고 언제 알람을 보낼지 결정한다. 에이전트 시스템에서는 문제가 완전한 장애가 아닌 패턴의 변화로 나타나는 경우가 많기 때문에 이는 더 어렵다.

행동 드리프트 (Behavioral Drift):

에스컬레이션 (Escalation) 비율의 변화
출력 길이의 비정상적인 시프트 (Shift)
도구 (Tool) 사용 패턴의 변화
분류 분포의 급격한 변화

원인으로 고려할 수 있는 것: 모델 업데이트, 프롬프트 변경, 검색된 코퍼스 (Corpus)의 시프트, 데이터 분포의 변화, 도구 응답의 변경.

도구 사용 이상:

통상적으로 계약 API와 벤더 API를 호출하는 조달 에이전트가 수동 예외 경로 (Manual exception path)를 빈번하게 호출하기 시작함
IT 운영 에이전트가 특정 런북 (Runbook)을 베이스라인을 크게 초과하여 실행함

이것들은 드리프트 (Drift), 버그, 환경 변화의 시그널이다.

출력 분포의 변화:

"모르겠습니다"라는 응답의 증가
더 보수적인 권장 사항
인간이 취소하는 액션의 증가
미결 상태로 종료되는 케이스의 증가

이것들은 가시적인 인시던트 (Incident)가 되기 전에 에이전트 품질 저하를 나타내는 경우가 많다.

모든 알람이 기술적 인시던트는 아니다. 다음 4가지 카테고리로 분류하고, 각각에 대해 서로 다른 대응 오너 (Owner)와 에스컬레이션 경로를 설정한다:

카테고리	예	대응 오너
기술적 인시던트	모델 게이트웨이 다운, 도구 API 타임아웃	SRE / 플랫폼 팀
...

여기에 함정이 있다. 조직은 우선순위 없이 모든 것을 로그 (Log)하려고 한다. 스토리지 비용이 불어난다. 대시보드 (Dashboard)가 노이즈가 된다. 팀은 중요한 시그널을 식별할 수 없게 된다. 프라이버시 리스크가 증가한다.

리스크 계층과 유스케이스 (Use case)의 중요도에 따라 설계한다. 내부 지식 어시스턴트는 가벼운 로그로 충분하다. 환불 자동화 시스템, 재무 예외 핸들러, IT 복구 워크플로우는 훨씬 더 깊은 트레이싱 (Tracing)과 감사가 필요하다.

건전한 원칙: 책임 추적을 위해 충분한 로그, 의사결정을 위해 충분한 측정, 팀이 실제로 행동하기 위해 충분한 알람. 뛰어난 옵저버빌리티 (Observability)란 가장 많은 데이터를 갖는 것이 아니라, 에이전트의 행동을 보고, 설명하고, 제어하기 위해 가장 유용한 데이터를 갖는 것이다.

단일 에이전트 실행을 트리거 (Trigger)부터 비즈니스 성과까지 트레이스 (Trace)할 수 없다
기술 메트릭 (Metric), 품질 메트릭, 비즈니스 메트릭이 분리되어 있지 않다
어떤 민감 데이터를 리덕션 (Reduction)하는지, 누가 로그에 접근할 수 있는지가 정의되어 있지 않다
모든 알람을 동일한 인시던트 타입으로 취급하고 있다
프로덕션 (Production)에서 에이전트 품질을 리뷰하는 체계적인 프로세스가 없다

에이전트 시스템의 옵저버빌리티는 대시보드 프로젝트가 아니다. 컨트롤 플레인 (Control plane)의 결정이다. 올바르게 설계하면 신뢰, 설명 가능성, 책임 있는 자율성의 기반이 마련된다. 잘못 설계하면 에이전트가 무엇을 하고 있는지 알게 되었을 때는 이미 늦는다—그 무렵에는 에이전트가 이미 당신을 대신해 행동하고 있을 것이다.

AI 에이전트가 '작동하고 있다'는 것이 가장 위험하다 — 엔터프라이즈를 위한 의사결정 추적형 옵저버빌리티(Observability) 설계

요약

핵심 포인트

댓글