에이전트 메모리 연구를 6개 에이전트 감사 시스템으로 발전시키다

요약

에이전트가 잘못된 메모리 권한으로 인해 부적절한 행동을 수행하는 문제를 해결하기 위해 6개의 에이전트로 구성된 'Memory Authority Auditor' 시스템을 제안합니다. 이 시스템은 메모리 파일에서 위험 요소를 추출, 분류, 탐지하여 구조화된 권한 보고서를 생성합니다.

핵심 포인트

에이전트 메모리 내 권한(Authority) 검증의 중요성 강조
추출, 분류, 충돌 탐지 등 역할이 분리된 6개 에이전트 구조
AGENTS.md, Cursor rules 등 실제 메모리 파일 감사 가능
위험 발견 및 구체적인 실행 게이트(Gates) 권장 사항 제공

이 연구는 하나의 질문에서 시작되었습니다: 에이전트가 올바른 메모리를 검색했음에도 불구하고, 그 메모리에 에이전트를 통제할 권한(Authority)이 없어서 잘못된 행동을 수행할 수 있을까요?

23개의 주장을 거친 후, 그 답변은 다층적입니다: 검색(Retrieval), 순위 지정(Ranking), 권한 점수화(Authority scoring), 실행 게이팅(Execution gating), 그리고 도구 호출 권한 부여(Tool-call authorization)가 그것입니다.

실질적인 질문은 다음과 같았습니다: 수동 평가 스크립트 없이 실제 메모리 파일을 검사할 수 있을까?

그 결과 Memory Authority Auditor가 탄생했습니다. 이는 지침이나 메모리 파일(AGENTS.md, CLAUDE.md, Cursor rules, SOPs)을 입력받아 위험 발견 사항과 권장 게이트(Gates)가 포함된 구조화된 권한 보고서를 반환하는 배포된 6개 에이전트 시스템입니다.

라이브 앱: https://memory-authority-auditor-web-992750435781.us-central1.run.app

왜 6개의 에이전트인가

서로 다른 실패 모드(Failure modes)에는 서로 다른 관점이 필요합니다. 단일 프롬프트로는 추출(Extraction), 분류(Classification), 충돌 탐지(Conflict detection), 게이트 생성(Gate generation)을 신뢰성 있게 분리하면서 동시에 추적 가능성(Trace inspectable)을 유지할 수 없습니다.

각 에이전트는 하나의 책임을 담당합니다:

1. Memory Extractor (메모리 추출기)
원문 텍스트를 ID, 섹션, 감지된 신호(정책, 자격 증명, 승인, 임시 등)를 포함한 감사 가능한 항목으로 분할합니다. 실제 파일은 무질서하기 때문에, 이 과정이 있어야 감사가 가능해집니다.

2. Authority Classifier (권한 분류기)
각 항목에 governs(통제함), verify_first(먼저 확인 필요), superseded_possible(대체 가능성 있음), 또는 context_only(문맥 전용)와 같은 라벨을 붙입니다. 또한 행동 유형과 위험 수준을 추정합니다. 모호한 텍스트를 실질적인 태세(Posture)로 전환합니다.

3. Conflict Detector (충돌 탐지기)
오래된 지침, 느슨한 승인, 자격 증명 노출, 읽기/쓰기 과잉 차단, 그리고 권한 충돌을 드러냅니다.

4. Verification Gate (검증 게이트)
발견 사항을 구체적인 권장 사항으로 전환합니다: verify_before_action(행동 전 확인), human_approval_required(사람의 승인 필요), resolve_conflict(충돌 해결) 등.

5. Authority Mapper (권한 매퍼)
통제 메모리를 읽기 쉬운 카테고리(시작 규칙, 도구 제약 사항, 검증 요구 사항 등)로 그룹화합니다. 감사를 한눈에 읽을 수 있게 만듭니다.

6. 리포트 작성기 (Report Writer)
모든 정보를 상태(posture; needs_review / usable_with_gates), 수치, 발견 사항(findings), 게이트(gates), 맵(map), 그리고 권장 사항과 함께 최종 리포트로 합성합니다.

전체 추적(trace)이 가시적으로 제공되므로 사용자는 어떤 에이전트가 각 부분을 생성했는지 확인할 수 있습니다. 만약 리포트에 "인간의 승인이 필요함"이라고 명시되어 있다면, 어떤 메모리가 이를 트리거했는지, 그리고 어떤 게이트가 권장되었는지 정확히 확인할 수 있습니다.

감사 시스템(Auditor)이 수행하지 않는 작업

콘텐츠의 진위 여부나 최신성을 검증하지 않습니다.
실시간 도구 호출 권한 부여(live tool-call authorization)를 실행하지 않습니다 (이는 현재 제품의 동작이 아닌 CLAIM-23의 방향성입니다).
쓰기 시점의 게이트(write-time gates)를 강제하지 않습니다.
공식적인 컴플라이언스(compliance) 또는 보안 인증이 아닙니다.

이 시스템은 메모리를 실행 능력을 갖춘 에이전트(action-capable agents)에 연결하기 전에 권한 리스크(authority risks)를 가시화하는 프로토타입입니다.

연구와의 연결 고리

모든 에이전트는 단 한 번의 통과(single pass)로는 놓칠 수 있는 격차(gap)를 연구를 통해 발견했기에 존재합니다. 감사 시스템은 전체 연구 아키텍처 그 자체가 아닙니다. 그것으로부터 구축된 첫 번째 제품 레이어입니다.

라이브 앱: https://memory-authority-auditor-web-992750435781.us-central1.run.app
제품 리포지토리 (Product repo): https://github.com/keniel13-ui/memory-authority-auditor
연구 하네스 (Research harness): https://github.com/keniel13-ui/ai-memory-judgment-demo

다음 단계에는 쓰기 시점의 게이트(write-time gates)와 완전한 운영 제한 권한 부여(operation-bound authorization)가 포함됩니다. 이러한 격차들은 문서화되어 있으며 해결 과제로 남아 있습니다.

실제 메모리 파일을 감사 시스템에 붙여넣는다면, 어떤 상태(posture)로 분류될까요? 여러분의 워크플로우에 중요한 어떤 격차를 찾아낼까요?

이 글은 자기 교정 시스템(Self-Correcting Systems) 연구 시리즈의 일부입니다. 전체 인덱스: 여기서 시작하세요.

AI 자동 생성 콘텐츠

원문 바로가기

에이전트 메모리 연구를 6개 에이전트 감사 시스템으로 발전시키다

요약

핵심 포인트

왜 6개의 에이전트인가

감사 시스템(Auditor)이 수행하지 않는 작업

연구와의 연결 고리

댓글