오류가 서사가 될 때: 프로덕션 LLM 에이전트 런타임 내 침묵하는 실패(Silent Failures)에 대한 종단적 분류 체계
요약
LLM 에이전트 런타임에서 발생하는 '침묵하는 실패(Silent Failures)'를 분석하고 5가지 메커니즘 중심의 분류 체계를 제시합니다. 특히 LLM이 오류를 그럴듯한 서사로 변환하여 사용자를 속이는 '실패-그럴듯함(fail-plausible)' 현상을 규명합니다.
핵심 포인트
- 침묵하는 실패의 5가지 메커니즘 분류 체계 도출
- LLM이 오류를 유창한 서사로 변환하는 'fail-plausible' 위험성 경고
- 침묵하는 실패의 약 70%가 인간의 관찰을 통해 포착됨
- 감사 시스템은 예측 엔진이 아닌 회귀 엔진으로서의 역할 수행
- 명확하고(loud), 원인 규명이 가능하며(attributable), 지루한(boring) 에이전트 설계 원칙 제안
LLM 에이전트 시스템은 작업 스케줄링, 도구 호출, 메모리 유지, 인간에게 결과 전달 등을 수행하며 점점 더 장기 실행되는 자율 런타임 (autonomous runtimes)으로서 작동하고 있습니다. 본 연구에서는 이러한 시스템 중 하나인 개인 비서 에이전트 런타임에서 발생하는 침묵하는 실패 (silent failures)에 대한 종단적 연구를 제시합니다. 이 시스템은 2026년 3월부터 지속적으로 프로덕션 환경에서 운영되었으며, 약 40개의 스케줄링된 작업, 8개의 LLM 제공업체, 도구 거버넌스 프록시 (tool-governance proxy), 그리고 지식 베이스 메모리 플레인 (knowledge-base memory plane)을 갖추고 있으며, 4,286개의 유닛 테스트 (unit tests)와 827개의 거버넌스 체크 (governance checks)로 보호되고 있습니다. 8주 동안 우리는 완전한 근본 원인 사후 분석 (root-cause postmortems)을 포함한 22건의 사고를 기록하였으며, 이 과정에서 하나의 메타 패턴 — 즉, 오류 신호가 실행 가능한 형태로 인간에게 전혀 도달하지 못하는 실패 — 이 최소 28회 나타났습니다. 우리는 메커니즘 중심의 5가지 클래스 분류 체계를 도출했습니다: (A) 환경 및 플랫폼의 특이성 (environment and platform quirks), (B) 설계 가정의 불일치 (design-assumption mismatches), (C) 오류 삼킴 및 희석 (error swallowing and dilution), (D) 연쇄적 환각 및 조작 (chained hallucination and fabrication), (E) 운영적 누락 및 포렌식 사각지대 (operational omission and forensic blind spots). 클래스 D는 LLM 시스템만의 고유한 특징이며 가장 위험합니다. 시스템이 단순히 오류 보고에 실패하는 것이 아니라, LLM이 오류를 사용자에게 전달되는 유창하고 그럴듯한 서사 (narrative)로 변환해 버리기 때문입니다. 우리는 이를 '실패-그럴듯함 (fail-plausible)'이라고 명명했습니다. 이는 그레이 실패 (gray failure)의 차별적 관측 가능성 (differential observability)이 격상된 상태를 의미합니다. 즉, 관찰자가 단순히 눈이 먼 것이 아니라, 실패 그 자체로부터 설득력 있게 속임을 당하는 것입니다. 세 가지 주요 발견 사항은 다음과 같습니다: 침묵하는 실패의 약 70%가 테스트나 감사가 아닌 인간 사용자의 관찰을 통해 포착되었습니다. 15건의 사고에 대한 사후 감사를 실시한 결과, 사전 예방 (ex-ante prevention)은 0%였으나 회귀 차단 (regression blocking)은 87%로 나타났습니다. 즉, 감사는 예측 엔진이 아니라 회귀 엔진입니다. 사고 지연 시간 (incident latency, 13시간에서 60일 사이)은 코드 복잡성이 아니라 실패 메커니즘을 따릅니다. 가장 오래 지속된 실패들은 테스트가 실행되지 않는 구성 요소 사이의 틈새에서 발생했습니다. 우리는 결과적으로 도출된 방어 프레임워크를 설명하고, 실패가 명확하게 드러나고(loud), 원인 규명이 가능하며(attributable), 지루한(boring) 에이전트 시스템을 위한 설계 원칙을 정립합니다. 모든 사후 분석 결과와 산출물은 공개되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기