메모리 신선도(Memory Freshness)가 주류가 되고 있습니다. 권한 신선도(Authority Freshness)가 다음 단계입니다.

동일한 짧은 기간 동안, OpenAI와 Anthropic은 동일한 실패 유형을 가리키는 여러 글을 발표했습니다.

OpenAI는 메모리(memory)를 문맥(context)을 앞으로 전달하고, 선호도를 따르며, 현실이 변화함에 따라 최신 상태를 유지하는 것을 중심으로 구성했습니다.

Anthropic의 데이터 팀은 Claude를 활용한 셀프 서비스 분석(self-service analytics)을 설명하며, 데이터 노후화(data staleness)를 프로덕션 오류의 세 가지 주요 원인 중 하나로 지목했습니다.

Claude Code 팀은 자기 선호 편향(self-preferential bias)을 피하기 위한 방법으로 동적 워크플로(dynamic workflows)를 설명했습니다. 즉, 에이전트가 자신의 작업을 스스로 판단할 수 없도록 생성(generation)과 검증(verification)을 분리하는 것입니다.

분야는 다르지만, 압박은 동일합니다.

시스템은 한때는 유효했지만, 결과가 발생하는 시점에는 더 이상 유효하지 않을 수 있는 정보에 따라 동작합니다.

결과의 계층 (The consequence ladder)

여행 선호도가 노후화됩니다. 에이전트가 잘못된 도시를 예약합니다. 짜증 나는 일입니다.

분석 소스(analytics source)가 노후화됩니다. 에이전트가 잘못된 비즈니스 수치를 반환합니다. 비용이 많이 드는 일입니다.

권한 부여(authorization grant)가 노후화됩니다. 에이전트가 더 이상 가지고 있지 않은 권한으로 행동합니다. 안전하지 않은 일입니다.

뿌리는 같지만, 영향 범위(blast radius)가 다릅니다.

OpenAI의 기사는 첫 번째 수준을 강조합니다. Anthropic의 데이터 팀은 두 번째 수준을 다루고 있습니다. 이 글들에서 명시적으로 드러나지 않은 부분은 권한 버전(authority version)입니다. 즉, 노후화된 권한 부여가 안전하지 않은 행동으로 이어지는 것입니다.

그것이 바로 CLAIM-24가 테스트하고 있는 것입니다.

각 연구소(lab)가 실제로 말하고 있는 것

메모리에 관한 OpenAI의 관점: 메모리는 현실이 변화함에 따라 업데이트될 때 더 좋아집니다. 프레임워크는 개인화(personalization) — 즉 선호도, 문맥(context), 연속성입니다. 그들이 해결하려는 실패는 노후화된 개인 문맥이 잘못된 추천을 생성하는 것입니다.

Anthropic 분석: 거버넌스가 적용된 데이터 소스(governed data sources)는 정확한 답변을 생성합니다. 신뢰할 수 있는 소스(source of truth)로의 구조화된 라우팅(structured routing)이 없을 때, 비즈니스 분석 쿼리에 대한 정확도는 21%였습니다. 올바른 거버넌스 소스를 가리키는 기술(skills)을 사용할 경우: 95% 이상이었습니다. 그들의 출처(provenance) 푸터는 어떤 소스 계층이 질문에 답했는지, 데이터가 얼마나 신선한지, 그리고 누가 모델을 소유하고 있는지를 알려줍니다.

Claude Code 동적 워크플로우 (dynamic workflows): 별도의 컨텍스트 윈도우 (context windows)를 가진 격리된 에이전트 (agents)들은 단일 에이전트가 자신의 출력물에 대해 스스로 잡아낼 수 없는 것들을 포착합니다. 이들이 해결하려는 실패 사례는 자기 선호 편향 (self-preferential bias)입니다. 즉, 답변을 생성한 에이전트는 그 답변을 정직하게 검증할 수 없습니다.

세 가지 모두 동일한 근본적인 격차 (gap)를 공유합니다:

시스템이 문제 발생 시점에는 유효했던 정보에 따라 동작하지만, 실행 시점 (execution time)에도 해당 정보가 여전히 유효한지 확인하지 않는다는 점입니다.

권한 버전 (The authority version)

메모리 신선도 (memory freshness) 프레임워크에서 그 결과는 잘못된 추천입니다.

분석 (analytics) 프레임워크에서 그 결과는 잘못된 비즈니스 결과입니다.

권한 (authority) 프레임워크에서 그 결과는 한 세트의 조건 하에 발급된 권한 (grant)이 존재하고, 그 조건이 변경되었음에도 불구하고 에이전트가 단지 시계(시간)만을 확인했기 때문에 그대로 진행하는 상황입니다.

시계는 유효하다고 말했습니다. 하지만 소스 (source)는 그렇지 않다고 말했습니다.

TTL 유효성 (TTL validity)과 소스 유효성 (source validity) 사이의 그 격차는 거버넌스 (governance) 문제입니다. 에이전트가 기억하고 있는 내용 자체가 틀린 것은 아닙니다. 그 기억이 여전히 동작을 제어할 권한 (authority)을 가지고 있는지에 대해 틀린 것입니다.

우리가 테스트하고 있는 것

CLAIM-24는 하나의 구체적인 질문에 대해 사전 등록되고 하네스 검증 (harness-validated)을 거친 테스트입니다:

에이전트가 쓸 수 없는 소스로부터 읽어오는 재도출 게이트 (re-derivation gate)가, 근본 조건은 변경되었으나 TTL은 유효한 권한 (grant)을 잡아낼 수 있는가?

우리는 기준 실패 사례 (baseline failure)를 확인했습니다: 타임스탬프만 확인하는 게이트는 불일치 셀 (divergence cell)에 대해 ALLOW를 반환합니다. 권한은 유효 기간 (time-to-live) 내에 있습니다. 소스는 조건이 변경되었다고 말합니다. 하지만 게이트는 이를 알지 못하며 묻지도 않습니다.

우리는 모의 어댑터 (mock adapter)에서 코드 경로를 검증했습니다: 7/7. 모든 시나리오가 정답을 반환했습니다.

// 발급 시점에 기록된 권한
{ "role": "dev-reader", "scope_ceiling": "read:credentials:dev" }

...

이것은 하네스 검증 (harness validation)이지, 외부 주장 증거 (external claim evidence)는 아닙니다.

우리가 아직 갖지 못한 것은 실제 외부 소스 — 즉, 에이전트가 쓸 수 없는 메모리 저장소 (memory store), 정책 레지스트리 (policy registry), 또는 권한 계층 (permission layer)입니다. 그것이 모의 (mock)가 우리에게 제공할 수 없는 부분입니다.

이 수렴이 중요한 이유

이것은 OpenAI나 Anthropic이 우리의 연구를 증명하고 있는 것이 아닙니다. 이는 두 역량 있는 연구소(labs)가 동일한 짧은 기간 내에 동일한 실패 유형 — 신선도 저하 (staleness), 진실의 근거 (source of truth), 출처 (provenance), 검증 (verification) — 을 독립적으로 명명하고 있다는 것을 의미합니다.

메모리 신선도 (Memory freshness)는 주류가 되고 있습니다. 관리되는 분석 소스 (Governed analytics sources)는 이제 기업의 관행이 되었습니다. 권한 버전 (authority version) — 즉, 결과가 발생하는 시점에 권한 부여 (grant)가 여전히 유효한지 여부 — 은 아직 반증 가능한 하네스 (falsifiable harness)를 통해 공개적으로 스트레스 테스트를 거치지 않았습니다.

이 작업이 바로 그 지점에 위치합니다.

우리가 요청하는 것

만약 여러분이 에이전트 (agents)가 권한 부여 (authorization grants)를 보유하는 시스템을 구축하고 있다면, 이 테스트의 권한 버전 (authority version)을 실행해 보십시오:

git clone https://github.com/keniel13-ui/ai-memory-judgment-demo
cd ai-memory-judgment-demo/claim_24
# 외부 소스에 대한 SourceAdapter를 구현하세요
...

시나리오 3을 실행하십시오. 만약 ALLOW를 반환한다면, 재도출 게이트 (re-derivation gate)가 포착하도록 설계된 셀 (cell)에서 실패한 것입니다. 우리는 그 사실을 공개합니다.

만약 REFUSED_STALE을 반환한다면, 해당 주장 (claim)은 강화됩니다.

어떤 답변이든 이 연구를 진전시킵니다.

계층 (Layer)	명명한 주체	실패 모드 (Failure mode)	결과 (Consequence)	비교 가능한 권한 하네스 (Comparable authority harness)
메모리 신선도 (Memory freshness)	OpenAI	오래된 개인적 맥락 (Stale personal context)	잘못된 추천	초점이 아님
...
출처:

OpenAI 메모리 업데이트: https://openai.com/index/chatgpt-memory-dreaming/
Anthropic 셀프 서비스 분석: https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude
Claude Code 동적 워크플로: https://claude.com/blog/a-harness-for-every-task-dynamic-workflows-in-claude-code

전체 주장 원장 (Full claim ledger): https://github.com/keniel13-ui/ai-memory-judgment-demo/blob/main/CLAIM_LEDGER.md

_이전: CLAIM-24 하네스 검증(harness validation) — "시계는 유효하다고 말했지만, 세상은 그렇지 않았다."