새로운 프롬프트가 Claude Code를 규칙, 상태, 병합 규율을 갖춘 경계형 엔지니어링 에이전트로 변화시켜 Fable-5에 도움을 준 이유

요약

새로운 프롬프트는 Claude Code를 단순한 코더에서 규칙과 상태 관리가 가능한 경계형 엔지니어링 에이전트로 진화시켰습니다. 이 개선을 통해 Fable-5 프로젝트에 적용되었으며, 작업 흐름의 단계적 강제(inspect → classify → PRD/design → wait for approval)와 파일 범위 제한 등을 구현하여 자율 코딩의 정확성과 통제력을 크게 높였습니다.

핵심 포인트

작업 단계를 명시적으로 분리하여 가짜 검증 아티팩트 생성을 방지했습니다.
허용된 파일 목록을 지정하여 PR 범위를 간결하게 유지하고 관련 없는 코드 수정 위험을 막았습니다.
로컬 부채와 리포지토리 부채를 구분하도록 하여 정확한 문제 분류가 가능해졌습니다.
승인 전에는 병합하거나 푸시하지 않도록 강제하여 엄격한 개발 규율을 준수했습니다.

새로운 프롬프트는 Claude Code를 '방향 지시가 필요한 스마트 코더'에서 규칙(rules), 상태(state), 그리고 병합 규율(merge discipline)을 갖춘 경계형 엔지니어링 에이전트(bounded engineering agent)로 변화시켜 Fable-5에 도움을 주었습니다.

가장 큰 개선점은 다음과 같습니다:

모든 작업을 개방형 코딩처럼 취급하는 것을 중단했습니다.

이전에는 모델이 문제를 보고 즉시 파일을 변경하기 시작할 수 있었습니다. 새로운 프롬프트는 다음의 순서를 강제합니다:
inspect → classify → PRD/design → wait for approval → implement → verify → stop

이는 오늘날 매우 중요했습니다. T-L42의 경우, Fable은 먼저 누락된 operator_owed_T-L42.md를 검사하고 '수정이 배포되지 않았으므로 로그를 생성하지 마라'고 올바르게 말했습니다. 이는 가짜 검증 아티팩트(fake verification artifact) 생성을 방지했습니다.
2. 파일 범위를 명시적으로 했습니다.

모든 구현에는 허용된 파일 목록(allowed-file list)이 있었습니다. 이 덕분에 PR이 간결하게 유지되었습니다:
#452: 정확히 5개 파일
#453: 정확히 3개 파일
#454: 정확히 4개 파일

이는 엄청난 성공입니다. Fable이 관련 없는 런타임 코드, 프론트엔드 파일, 마이그레이션(migrations), 또는 CI 설정 파일을 '도움이 되게' 건드리는 것을 막았습니다.
3. 로컬 부채와 리포지토리 부채를 분리했습니다.

프롬프트는 Fable이 증상을 맹목적으로 수정하는 대신 실패를 분류하도록 만들었습니다.

예시: https://t.co/cnzcHUgiWE 모든 것이 빨간색이었지만, Fable은 이를 다음과 같이 분리했습니다:

stale migration baseline → repo PR #453
bad test harness behavior → repo PR #453
missing operator_owed_T-L42.md → 로컬 운영자 검증 부채(local operator verification debt), PR에서 가짜로 처리할 것이 아님

이것이야말로 자율 코딩 에이전트에게 원하는 정확한 종류의 추론입니다.
4. '승인 전에는 병합하지 말고, 푸시하지 말라'는 것을 강제했습니다.

Fable은 적절한 게이트에서 반복적으로 멈췄습니다:
implemented locally → report → wait
draft PR → report → wait
checks green → report → wait
ready for review → report → wait

이는 귀하의 엄격한 PR 규율과 일치합니다. Fable이 최종 통제권을 갖지 않으면서 작업을 수행하도록 했습니다.

증거를 보존하도록 Fable을 만들었습니다.

새로운 프롬프트는 다음 내용이 포함된 보고서를 강제했습니다:
files changed
exact tests run
what passed
what failed

실패가 기존에 존재했는지 여부
로컬에서 무시된 파일들이 커밋되지 않고 유지되었는지 여부
PR 준비 완료 제목/본문

그것은 추측 없이 병합 결정을 내릴 수 있는 충분한 증거를 제공했습니다.
6. Fable이 .claude/agent-state.json을 제어 파일처럼 사용하게 했습니다
에이전트 상태(agent-state) 작업은 Fable이 다음 항목들을 구조화된 방식으로 추적할 수 있게 했기 때문에 도움이 되었습니다:
현재 브랜치
현재 단계
마지막 도구 출력 요약
미해결 질문들
차단 상태

이는 채팅 기록에만 의존하는 것보다 훨씬 좋습니다. 또한 미래 실행이 실수로 잘못된 브랜치를 계속 진행하지 않고 안전하게 재개할 수 있는 방법을 제공합니다.

배포 후 실제 프로덕션 실패를 포착했습니다

최고의 증거는 T-L42입니다. Fable은 최초의 가드레일 수정(guardrail fix)을 구축했고, CI가 녹색(green) 신호를 받았으며, 여러분이 이를 병합했습니다. 그러자 라이브 테스트에서 TORQ AI가 여전히 NVDA 가격/거래량을 조작하고 있다는 것이 드러났습니다. 프롬프트가 정직한 검증을 요구했기 때문에, 우리는 T-L42를 완료로 표시하지 않았습니다. 대신, Fable은 실제 남아있는 문제를 진단했습니다:
프롬프트만으로는 충분하지 않습니다;
우리는 결정론적인 라이브 시장 데이터 거부/강제가 필요합니다.

이는 테스트가 통과한 후 맹목적으로 승리를 선언하는 것보다 훨씬 나은 결과입니다.

우리가 발견한 주요 약점

프롬프트는 작동했지만, 초기에는 너무 보수적이었습니다. GitHub가 이미 녹색이고 범위가 지정되었으며 병합 가능하다는 것을 증명했음에도 불구하고 재확인하면서 토큰을 낭비했습니다.

앞으로 개선된 규칙은 다음과 같습니다:

PR이 녹색(green)이고, 범위가 지정되었고(scoped), 병합 가능하며, 변경되지 않았다면:
검증을 다시 실행하지 마십시오.
리뷰/병합 또는 라이브 테스트로 넘어가십시오.

결론적으로

새로운 프롬프트는 Fable-5를 통제된 스태프 엔지니어(staff engineer)와 더 가깝게 만들었습니다:
무작위 코딩 감소
더 범위가 지정된 PR
더 나은 실패 분류
더 나은 증거
더 안전한 Git 동작
가짜 검증 없음
더 명확한 인계 작업

오늘의 결과는 작동했음을 보여줍니다: 세 개의 병합된 PR, 깨끗한 브랜치 규율, 그리고 숨겨진 것이 아니라 발견된 하나의 실제 프로덕션 가드레일 격차입니다. @ClaudeDevs

AI 자동 생성 콘텐츠

원문 바로가기

새로운 프롬프트가 Claude Code를 규칙, 상태, 병합 규율을 갖춘 경계형 엔지니어링 에이전트로 변화시켜 Fable-5에 도움을 준 이유

요약

핵심 포인트

댓글