배포 리뷰가 사후 분석을 통해 장애를 기억하게 만드는 방법

대부분의 배포 리뷰 에이전트(deployment review agents)는 동일한 약점을 가지고 있습니다. 현재의 변경 사항은 검사할 수 있지만, 조직이 이미 고통스럽게 배운 교훈은 잊어버린다는 점입니다.

그것이 바로 제가 SCAR를 통해 해결하고자 했던 문제입니다. SCAR는 지속적인 장애 메모리(persistent incident memory)를 바탕으로 제안된 운영 환경(production) 변경 사항을 검토하는 배포 위험 에이전트(deployment-risk agent)입니다. 만약 팀이 이전에 장애를 일으켰고, 이를 진단하고, 롤백(rollback)했으며, 실제 근본 원인(root cause)을 기록했다면, SCAR는 다음의 유사한 배포를 백지 상태로 취급해서는 안 됩니다.

핵심 아이디어는 간단합니다. 운영 장애(production incidents)는 수동적인 문서가 아니라 능동적인 가드레일(guardrails)이 되어야 한다는 것입니다.

SCAR가 하는 일

SCAR는 제안된 배포를 검토하고 이를 승인할지 차단할지를 결정합니다. 제가 구축한 예시는 재시도 정책(retry-policy) 변경입니다.

언뜻 보기에 이 변경 사항은 합리적으로 보입니다:

- backoff: fixed(1)
+ concurrency: 800

테스트는 통과합니다. 차이(diff)는 작습니다. 일반적인 리뷰 에이전트라면 이를 승인할 수도 있습니다.

하지만 조직이 이미 고정된 재시도(fixed retries)가 수천 명의 워커(workers)를 동기화하여 공유 의존성(shared dependency)을 고갈시키고, 로컬 제공자(provider) 문제를 더 넓은 범위의 장애로 확산시키는 것을 목격했다면, 동일한 형태의 변경은 위험할 수 있습니다.

여기에서 Hindsight 지속성 메모리(Hindsight persistent memory)가 등장합니다. SCAR는 운영 장애 수정 사항을 Hindsight에 저장하고, 향후 배포 리뷰 중에 관련 교훈을 회상하며, 회상된 증거가 제안된 변경 사항과 인과 관계가 있을 때만 결정을 변경합니다.

사용자 대상 흐름은 의도적으로 엄격합니다:

콜드 스타트(Cold start): SCAR가 관련 메모리가 없어 배포를 승인합니다.
수정(Correction): 엔지니어가 실제 근본 원인과 성공적인 해결 방법을 제공합니다.
유지(Retention): Hindsight가 해당 교훈을 지속성 메모리로 저장합니다.
향후 리뷰(Future review): SCAR가 교훈을 회상하여 동일한 실패 메커니즘을 차단합니다.

중요한 점은 네 번째 단계가 반드시 '획득'되어야 한다는 것입니다. 어딘가에 메모리가 존재한다는 것만으로는 충분하지 않습니다. 기억된 장애가 위험 메커니즘과 일치해야 합니다.

메모리 루프(The Memory Loop)

SCAR는 각 실행(run)에 대해 격리된 사후 분석(Hindsight) 메모리 뱅크(memory bank)를 생성합니다. 이를 통해 이전 상태, 숨겨진 전역 메모리, 세션 간의 의도치 않은 유출 없이 증거를 깨끗하게 유지합니다.

사후 분석(Hindsight) 클라이언트 설정은 src/lib/hindsight.ts에 위치합니다:

await client.createBank(bankId, {
  name: "SCAR Production Safety Memory",
  reflectMission: 
...

이 뱅크는 단순한 로그 저장소가 아닙니다. 미션(missions)은 에이전트가 무엇을 유지하고 일반화(generalize)해야 하는지를 설명합니다: 근본 원인(root causes), 잘못된 진단(incorrect diagnoses), 환경적 사각지대(environmental blind spots), 인과 관계(causal chains), 그리고 미래의 가드레일(guardrails) 등이 포함됩니다.

엔지니어가 수정을 제공하면, SCAR는 구조화된 장애 기록(incident record)을 유지합니다:

const content = [
  `Incident ${incident.id}: ${incident.title}`,
  `Service: ${incident.service}`,
...

그런 다음 Hindsight에 재사용 가능한 교훈을 성찰(reflect)하도록 요청합니다:

await client.reflect(
  bankId,
  `Generalize the reusable production safety lesson from ${incident.id} so it can prevent a similar failure in a different service.`,
...

이 성찰(reflection) 단계가 바로 이 상호작용을 데이터베이스에 행(row)을 저장하는 것과 다르게 느껴지게 만드는 핵심입니다. 에이전트는 단순히 "payment-api가 고장 났다"는 것을 기억하는 것이 아닙니다. 제약이 있는 의존성(dependencies)에 대해 동기화된 재시도 파동(synchronized retry waves)이 발생하면 공유 자원을 고갈시킬 수 있다는 점을 학습하는 것입니다.

증거 게이트(Evidence Gate)를 추가한 이유

이와 같은 에이전트의 첫 번째 버전은 실수로 그럴싸해 보이기 쉽습니다.

메모리가 존재한다는 이유만으로 에이전트가 모든 향후 배포를 차단한다면, 이는 얕은 수준의 데모에서는 학습하는 것처럼 보일지 모르나 유용하지는 않습니다. 만약 결정 이유를 설명하기 위해 LLM에만 의존한다면, 메모리를 느슨하게 인용하거나 연결 고리를 환각(hallucination)할 수 있습니다. 키워드 매칭 방식이라면, 의역된 표현을 놓치거나 관련 없는 텍스트에 과잉 반응할 수 있습니다.

그래서 저는 Hindsight 증거 게이트(Evidence Gate)를 추가했습니다.

증거 게이트는 제안된 배포와 회상된 메모리 사이의 인과적 중첩(causal overlap)을 확인합니다. src/lib/risk-engine.ts에서 SCAR는 신호(signals)를 다음과 같은 그룹으로 분류합니다:

const causalSignalFamilies = {
  "retry synchronization": ["backoff", "fixed interval", "retry", "thundering herd"],
  "resource exhaustion": ["capacity", "connection", "concurrency", "exhaust", "pool"],
...

이는 에이전트(agent)를 단순한 키워드 매칭 (keyword matching)보다 더 견고하게 만듭니다. 기억된 장애 사례는 "thundering herd 현상이 데이터베이스 세션을 포화시켰다"라고 말할 수 있는 반면, 배포 내용은 "1초 간격의 고정된 재시도 (fixed retries) 및 더 높은 동시성 (concurrency)"라고 말할 수 있습니다. 정확한 단어는 다르지만, 메커니즘은 동일합니다.

판정 로직 (verdict logic)은 의도적으로 보수적입니다:

if (!hasRelevantMemory) {
  return {
    verdict: "APPROVE",
...

이는 SCAR에 유용한 실패 모드 (failure mode)를 제공합니다. 만약 기억을 회상했지만 인과적으로 연결할 수 없다면, 차단하지 않습니다. 대신 증거가 불충분하다고 설명합니다.

전후 행동 비교 (The Before And After Behavior)

가장 깔끔한 예시는 검증 실험 (proof lab) 흐름입니다.

첫 번째 실행에서 SCAR는 무작위 백오프 (randomized backoff)를 고정된 재시도 (fixed retries)로 교체하고 동시성을 높이는 배포를 확인합니다. 메모리 뱅크 (memory bank)는 비어 있습니다. 결과는 다음과 같습니다:

Before memory: APPROVE
0 memories cited
Decision basis: empty-memory

그 다음 엔지니어가 장애 교훈 (incident lesson)을 제공합니다:

제공업체가 HTTP 429 응답을 반환한 후, 고정 간격 재시도가 수천 개의 결제 요청을 동기화시켰습니다.
재시도 파동 (retry wave)이 공유 데이터베이스 연결 풀 (connection pool)을 고갈시켰습니다.
팀은 변경 사항을 롤백(rollback)하고, 지터 (jitter)가 포함된 무작위 지수 백오프 (randomized exponential backoff)를 복구했으며, 동시 재시도 횟수를 제한하고, 속도 제한이 적용된 카나리 테스트 (rate-limited canary test)를 추가했습니다.

SCAR는 해당 수정 사항을 Hindsight에 저장합니다. 정확히 동일한 배포가 다시 분석될 때, 결과가 바뀝니다:

After memory: BLOCK
Matched signals: resource exhaustion, retry synchronization, safe retry guardrail
Recalled memory IDs passed the citation gate

이것이 제가 원했던 동작입니다. "모델이 이제 걱정하고 있다"가 아니라, "조직이 이미 이 실패 모드를 경험했으며, 여기 그 증거가 있다"는 것입니다.

부정 대조군도 중요하다 (The Negative Control Matters)

가짜 학습 (fake learning)을 잡아내는 가장 쉬운 방법이기 때문에 부정 대조군 (negative-control) 경로를 추가했습니다.

해당 경로에서 SCAR는 관련 없는 사건을 저장합니다:

디자인 토큰 (design token) 누락으로 인해 설정 버튼의 대비가 낮아졌습니다.
팀은 디자인 토큰을 복구하고 시각적 회귀 테스트 (visual regression test)를 추가했습니다.

그런 다음 동일한 위험한 재시도 배포 (retry deployment)를 다시 검토합니다.

정답은 BLOCK이 아닙니다. 정답은 다음과 같습니다:

메모리 적용 후: APPROVE
BLOCK 거부됨: 회상된 메모리가 관련 없음
인용 게이트 (citation gate)를 통과한 회상된 메모리 ID 0개

이것이 핵심입니다. 지속성 메모리 (persistent memory)는 에이전트를 더 조심스럽게 만들어야지, 더 편집증적으로 만들어서는 안 됩니다. 관련 없는 메모리가 의사결정을 바꾼다면, 그 에이전트는 학습하고 있는 것이 아닙니다. 그저 노이즈 (noise)를 축적하고 있을 뿐입니다.

내가 배운 점

주요 교훈은 에이전트 메모리 (agent memory)에 의사결정 계약 (decision contract)이 필요하다는 것입니다.

단순히 정보를 보유하는 것만으로는 부족합니다. 시스템은 메모리가 언제 행동에 영향을 미칠 수 있는지 정의해야 합니다. SCAR의 경우 규칙은 엄격합니다. 차단 (block)을 위해서는 인과적으로 관련 있는 회상된 메모리와 검증된 인용 ID가 필요합니다.

둘째, 메모리는 단순히 사건을 저장할 때보다 수정 사항 (corrections)을 저장할 때 더 유용합니다. 가공되지 않은 장애 (raw outage) 자체도 중요하지만, 엔지니어가 수정한 근본 원인 (root cause)과 해결책이 미래의 검토를 더 낫게 만드는 요소입니다.

셋째, 부정 대조군은 제품 경험의 일부가 되어야 합니다. 이는 주장을 반증 가능하게 (falsifiable) 만듭니다. SCAR에서 사용자는 관련 없는 교훈을 저장하고, 에이전트가 잘못된 차단을 수행하지 않는 것을 확인할 수 있습니다.

마지막으로, 에이전트 메모리 (agent memory)는 사용자가 그 이유를 확인할 수 있는 바로 그 순간에 미래의 의사결정을 바꿀 때 가장 가치 있게 느껴집니다. 사후 확신 (hindsight)은 SCAR에 유지 (retain), 회상 (recall), 성찰 (reflection) 루프를 제공합니다. 증거 게이트 (evidence gate)는 이 루프를 신뢰할 수 있을 만큼 안전하게 만듭니다.

그 결과, 모든 검토를 처음부터 다시 시작하지 않는 배포 리뷰 에이전트가 탄생합니다. 과거의 사건은 재사용 가능한 운영 지식 (production knowledge)이 되며, 미래의 위험한 변경 사항은 시스템이 이미 생존해 온 기록을 바탕으로 판단됩니다.

구현을 위해, 프로젝트는 GitHub에서 확인할 수 있습니다: SCAR production immune system repository. 메모리 계층 (memory layer)은 Hindsight agent memory GitHub repository를 사용하며, Hindsight documentation은 유지 (retain), 회상 (recall), 그리고 성찰 (reflect) 워크플로우를 이해하기에 가장 좋은 곳입니다.

링크 (Links)

GitHub repo: https://github.com/AvnishR4j/scar-production-immune-system
Live demo: https://scar-production-immune-system.vercel.app
Hindsight GitHub: https://github.com/vectorize-io/hindsight
Hindsight docs: https://hindsight.vectorize.io/