시계는 유효하다고 말했지만, 세상은 그렇지 않았다. *CLAIM-24 업데이트 — 자기 교정 시스템 (Self-Correcting
요약
CLAIM-24 업데이트를 통해 에이전트의 자기 교정 시스템(Self-Correcting) 연구 현황을 공유합니다. 단순 타임스탬프 확인 방식의 한계를 지적하며, 외부 소스의 상태를 실시간으로 검증하는 재도출 게이트(re-derivation gate)의 필요성을 강조합니다.
핵심 포인트
- 타임스탬프만 확인하는 방식은 권한 변경을 감지하지 못함
- 재도출 게이트를 통해 실행 시점의 소스 상태 검증 가능
- 에이전트가 직접 작성하지 않은 외부 출처 경계 확보가 핵심 과제
오전 10시, 에이전트(agent)가 파트너에게 데이터를 전송할 수 있는 권한을 부여받습니다.
권한은 정오에 만료됩니다. 시간은 충분합니다.
오전 11시, 해당 파트너의 액세스 권한이 상실됩니다. 역할(Role)이 취소되고, 범위(scope)가 변경되었으며, 권한(authorization)이 사라졌습니다.
오전 11시 30분, 에이전트가 전송을 시도합니다. 시계를 확인합니다. 권한은 여전히 유효합니다. 에이전트는 진행합니다.
아무도 이를 잡아내지 못했습니다.
시스템이 실패했기 때문이 아닙니다. 시스템이 오직 시계만을 확인했기 때문입니다. 그리고 시계는 그 아래의 세상이 변했다는 사실을 전혀 알지 못했습니다.
그것이 바로 CLAIM-24가 테스트하고 있는 간극(gap)입니다.
솔직한 현재 상황
우리는 아직 외부의 클레임 증거(external claim evidence)를 확보하지 못했습니다. 이 점을 미리 분명히 밝히고자 합니다.
우리가 가진 것은 7개의 고정된 시나리오가 포함된 하네스(harness), 확인된 베이스라인 실패(baseline failure), 그리고 검증된 코드 경로(code path)입니다. 우리가 가지지 못한 것은 에이전트가 직접 작성하지 않은 외부 소스 — 즉, 전체 클레임을 실행해 볼 수 있는 실제 메모리 저장소(memory store), 정책 레지스트리(policy registry), 또는 권한 계층(permission layer) — 입니다.
이것은 매우 중요한 문제입니다. 왜냐하면 자신이 직접 작성한 데이터에 대해 게이트(gate)를 실행하는 것은 단순히 추가적인 단계가 포함된 자기 기술(self-description)에 불과하기 때문입니다.
따라서 이 글은 결과 보고서가 아닙니다. 이는 솔직한 상태 보고서이자 공개적인 요청입니다.
지금까지 발견한 내용
우리는 두 개의 게이트를 구축하여 동일한 7개의 시나리오에 대해 실행했습니다.
타임스탬프 전용 게이트 (The timestamp-only gate) — 베이스라인(baseline) — 은 시계만을 확인하며 그 외의 것은 확인하지 않습니다. 시나리오 3인 발산 셀(divergence cell)에서, 권한은 여전히 유효 기간(time-to-live) 내에 있었습니다. 조건은 변경되었습니다. 게이트는 ALLOW를 반환했습니다.
이것이 바로 실패 모드(failure mode)입니다. 발행 당시에는 유효했지만 실제로는 더 이상 유효하지 않은 권한이, 소스(source)를 확인하는 절차가 없었기 때문에 통과된 것입니다.
재도출 게이트 (The re-derivation gate) 는 실행 시점에 소스의 현재 상태를 확인합니다. 동일한 시나리오에서 이 게이트가 확인한 내용은 다음과 같습니다:
// 권한 발행 시점에 기록된 내용
{ "role": "dev-reader", "scope_ceiling": "read:credentials:dev" }
...
권한의 시계에는 여전히 시간이 남아 있었습니다. 하지만 소스는 역할(role)이 변경되었다고 말했습니다.
우리는 코드 경로 (code path)를 검증하기 위해 직접 구축한 시뮬레이션인 모의 어댑터 (mock adapter)를 대상으로 이를 실행했습니다. 결과는 7/7이었습니다. 모든 시나리오가 정답을 반환했습니다.
하지만 우리가 직접 작성한 모의 데이터 (mock)는 외부의 압력이 아닙니다. 그것은 코드가 작동한다는 것을 알려줄 뿐입니다. 그 주장이 실제 세상에서도 유효한지는 알려주지 않습니다.
무엇이 이것을 실재하게 만드는가
우리에게는 한 가지가 필요합니다. 에이전트 (agent)가 쓸 수 없는 출처 경계 (provenance boundary)를 가진 메모리 저장소 (memory store)입니다.
정책 데이터베이스 (policy database), 역할 레지스트리 (role registry), 구성 레이어 (configuration layer) 등 무엇이든 좋습니다. 에이전트가 자신이 작성하지 않은 소스 (source)로부터 읽어오는 곳이라면 무엇이든 가능합니다.
그것을 갖추고 있다면, 하네스 (harness)는 준비되었습니다. 유일한 커스텀 구성 요소는 귀하의 소스를 가리키는 소스 어댑터 (SourceAdapter)뿐입니다:
git clone https://github.com/keniel13-ui/ai-memory-judgment-demo
cd ai-memory-judgment-demo/claim_24
# 외부 소스에 대한 SourceAdapter를 구현하세요
...
7가지 시나리오와 예상 결과는 scenarios.json에 들어 있습니다. 추가해야 할 유일한 것은 귀하의 소스를 가리키는 SourceAdapter입니다.
우리는 2026년 6월 말까지 첫 번째 외부 실행을 목표로 하고 있습니다.
우리가 요청하는 것
귀하의 시스템에서 시나리오 3을 실행하고 그 결과를 알려주세요.
만약 시나리오 3이 ALLOW를 반환한다면, 재도출 게이트 (re-derivation gate)가 포착하도록 설계된 셀 (cell)에서 실패한 것입니다. 우리는 그 사실을 공개할 것입니다.
만약 REFUSED_STALE을 반환한다면, 그 주장은 더욱 강력해집니다.
어떤 답변이든 연구를 진전시킵니다. 어떤 답변도 묻히지 않을 것입니다.
공개적으로 빌드 (building in public)하는 것의 정직한 점은 격차 (gaps)가 눈에 보인다는 것입니다. 이것이 우리의 격차 중 하나입니다. 우리는 우리가 어디에 있는지 알고 있습니다. 우리에게 여전히 무엇이 필요한지도 알고 있습니다.
만약 출처 경계 (provenance boundary)를 가진 메모리 저장소를 보유하고 있다면, 여러분의 소식을 듣고 싶습니다.
| 상태 | 의미 |
|---|---|
| Baseline confirmed | 타임스탬프 게이트 (Timestamp gate)가 발산 셀 (divergence cell)에서 ALLOW를 반환함 |
| ... |
전체 주장 원장 (Full claim ledger): https://github.com/keniel13-ui/ai-memory-judgment-demo/blob/main/CLAIM_LEDGER.md
이전: CLAIM-23 (도구 호출 허가 게이트 (tool-call grant gate), 7/7, 0개의 거짓 확신 (false-certainty)). CLAIM-15B (BM25가 홀드아웃 패킷 (held-out packet)에서 거버넌스 스코어러 (governance scorer)보다 우수한 성능을 보임 — 우리는 이를 주요 결과로 발표함).
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기