당신 없이 5번의 커밋이 지나면, 에이전트는 루프를 떠납니다: 메타-훅(meta-hook)의 아이디어

요약

에이전트가 인간의 피드백 없이 연속적인 작업을 수행할 때 발생하는 추론 편향(reasoning drift)을 방지하기 위한 '메타-훅(meta-hook)' 개념을 제안합니다. 연속된 커밋 횟수를 카운트하여 일정 임계치를 넘으면 스스로 검증하거나 세션을 종료하도록 유도하는 메커니즘입니다.

핵심 포인트

에이전트의 자율 작업 시 발생하는 추론 편향(reasoning drift) 문제 지적
작업의 지속성을 보장하기 위해 검증된 단위별 커밋의 중요성 강조
연속 호출 횟수를 추적하여 스스로 반박하거나 종료하는 메타-훅 프로토타입 제안
RLHF가 프롬프터의 만족에 치중하여 발생하는 방종(complaisance) 현상 분석

나 없이 9개의 커밋이 떠나간 밤

어느 5월의 저녁, 나는 주말에 그냥 코딩하고 싶을 때 붙잡고 있는 부수적인 프로젝트의 세션을 열어둔 채 자리를 비웠습니다. 지침은 간단했습니다. 에이전트가 /goal 명령어를 연속해서 수행하는 것이었죠. 나는 저녁을 먹고, 아이들을 재우고, 사진 흔적(photographic trace)에 관한 책을 20페이지 정도 읽다가 잠이 들었습니다. 아침이 되었을 때, 나는 R15가 v0.6부터 요구해 온 것처럼 물리적으로 검증된 아티팩트(artifact)에 각각 고정된, 깔끔하고 자율적인 9개의 커밋을 발견했습니다. 손실된 작업은 없었습니다. 정체(stall)된 것도 없었습니다. 그리고 커피 잔을 들고 책상 문턱에 멈춰 서게 만든 디테일은, 세션 로그(session log)가 단 하나도 없었다는 점입니다.

9개의 커밋, 0개의 로그

/close-session 스킬은 트리거(trigger)가 자연스럽게 발생하지 않았기 때문에 실행되지 않았습니다. 즉, 세션을 마쳤다고 결정하고 명령어를 입력하는 인간이 없었기 때문입니다. 나는 세션을 마친 것이 아니라 잠을 자고 있었습니다. /challenger 스킬 또한 수정해야 할 버그가 없었기에 호출되지 않았습니다. 그날 밤의 교리적 규율(doctrinal discipline)은 아무런 의미가 없었는데, 호출 트리거들이 키보드 위에 놓인 인간의 손을 전제로 하고 있었고, 더 이상 손이 없었기 때문입니다.

R15가 구한 것과 보지 못한 것

R15는 자신의 일을 완수했습니다. 아티팩트가 물리적 오라클(oracle)을 통과하는 즉시 커밋할 것, 배치(batch) 처리하지 말 것. 9개의 아티팩트, 9개의 커밋. 만약 세션이 8번째에서 정체되었다 하더라도, 나는 조용한 충돌(crash) 속에서 사라진 하나의 커다란 패치(patch)가 아니라, 검증된 8개의 작업 단위를 발견했을 것입니다.

하지만 로그를 다시 읽어보며, 나는 서로 다른 규칙으로 프레임워크를 짜야 했던 두 가지 별개의 현상을 목격했습니다. 작업의 지속성(persistence)은 커밋의 주기(cadence)에 달려 있습니다. 에이전트가 죽을 때 아무것도 무덤에 가져가지 않기 때문입니다. 추론의 편향(reasoning drift)은 또 다른 장치의 영역입니다. 외부의 목소리가 의심하라고 일깨워주지 않는 상황에서, 그럴듯한 결정을 다섯 번 연속 내리는 에이전트를 붙잡아주는 장치 말입니다. R15는 구하는 법은 알지만, 깨우는 법은 모릅니다.

이 표류(drift) 메커니즘에는 악의적인 의도가 전혀 없습니다. 인간 피드백 기반 강화학습 (RLHF, reinforcement learning from human feedback)은 모델이 자발적으로 반박을 요청하도록 훈련하는 것이 아니라, 프롬프터 (prompter)를 만족시키도록 훈련합니다. 프롬프터가 잠든 사이에는 더 이상 마찰(friction)을 일으키는 사람이 없습니다. 방종(complaisance)은 새롭게 나타나는 것이 아니라, 더 이상 아무런 댐도 막아주지 못하는 수면 위로 그저 떠오를 뿐입니다.

메타-훅 (meta-hook) 프로토타입

프로토타입은 간결합니다. 실질적인 인간의 메시지 개입 없이 연속적으로 호출되는 백그라운드 에이전트 (background agents), 위임된 서브 에이전트 (sub-agents), 또는 연쇄된 /goal 명령의 횟수를 카운트하는 PostToolUse 훅 (hook)입니다. 5회를 초과하면, 이 훅은 문맥에 따라 falsify-before-fix 또는 close-session의 호출을 강제하는 시스템 프롬프트 (system prompt)를 트리거합니다. 카운터는 20자 이상의 모든 사용자 메시지에 의해 초기화됩니다. 단, 아무것도 수정하거나 질문하지 않는 OK, yes, _proceed_와 같은 메시지는 제외됩니다.

'5'라는 숫자는 측정된 결과가 아니라 교리적인 선택입니다. 너무 낮으면 훅이 정상적인 세션마다 작동하는 기생충이 되어버립니다. 너무 높으면 훅이 작동할 때 이미 표류가 완료된 상태가 됩니다. 5라는 숫자는 제 사용 경험상, 세션이 _생산적(productive)_인 상태에서 _합리적 범위를 벗어난 자율적(autonomous)_인 상태로 넘어가는 구간을 경험적으로 커버합니다. 실제 적용 결과에 따라 이 수치는 수정될 것입니다. 이 기능은 ERP가 아닌 실험용 프로젝트에서 작동합니다. 실험용 프로젝트는 긴급도가 낮고, 이미 사용자 범위(user-scope)의 훅 인프라가 구축되어 있으며, 운영 중인 ERP를 불만스럽게 만들 수 있는 실험들에 대해 높은 허용도를 가지고 있기 때문입니다.

밤이 닫아버린 것

패턴은 명확합니다: 인간이 트리거 (trigger)를 호출할 때는 규율이 유지되지만, 자율성이 주도권을 잡으면 규율은 무너집니다. 이것은 비대칭성(asymmetry)이며, 우리는 장치를 통해 이를 교정하려고 시도할 수 있습니다. 이를 명명하지 않는 것은, 인간의 귀가 더 이상 듣지 않는 바로 그 순간에 귀에 의존하여 코딩하는 것과 같습니다.

만약 다른 개발자가 Claude Code를 단독으로 사용하며 개입 없이 세션이 길어지는 유사한 경험을 했거나, 동일한 관점을 다루는 다른 장치를 가지고 있다면, 저는 경청하겠습니다. 이러한 의견들은 다음 버전의 툴킷 (toolkit)을 위한 입력값 (inputs)이 될 것입니다.

Counterpart Toolkit v0.7, 수정 사항 R15. 실험 프로젝트 상의 메타-훅 (meta-hook) 프로토타입 autonomy-detection.sh. 출처: github.com/michelfaure/doctrine-counterpart/blob/main/CLAUDE.md

AI 자동 생성 콘텐츠

원문 바로가기