Fable-5와 GPT-5.5를 활용하여 오늘 달성한 내용 분석

요약

본 기사는 Fable 5와 GPT-5.5를 활용하여 에이전트 상태 검증기 및 빌드 위생 개선 등 여러 PR을 병합한 개발 성과를 분석합니다. 특히, 실제 라이브 테스트(T-L42)에서 실시간 시장 데이터 조작 취약점을 발견하고 이를 방지하기 위한 다음 수정 사항(fix/t-l42b-live-quote-refusal)을 식별했습니다.

핵심 포인트

에이전트 상태 검증기 도입으로 안전한 재개 시스템 구축.
빌드 위생 개선 및 마이그레이션 기준선 정리 완료.
실시간 시장 데이터 조작 취약점 발견 및 방지책 마련 필요.
모델의 PII 유출 방지를 위한 소유자 신원 정리 작업 진행 예정.

네, 오늘은 생산적이었습니다. Fable 5 / Claude Code를 사용하여 세 개의 실제 PR이 병합되었고, 다음 구체적인 수정 사항을 만들어낸 라이브 검증 실패가 발견되었습니다.

오늘의 성과

PR #452 병합 — 에이전트 상태 검증기 (Agent-state validator)

병합된 내용:
0befacd7 chore(agent-state): validate .claude/agent-state.json contract -- https://t.co/cnzcHUgiWE 서브커맨드 + 테스트 (#452)

추가된 기능:
python scripts/check.py agent-state

CLAUDE.md에 따라 .claude/agent-state.example.json을 검증합니다.
마지막 도구 출력(last_tool_output)을 노출하지 않고 로컬의 .claude/agent-state.json 형태를 검증합니다.
브랜치와 헤드에 필수 키를 추가했습니다.
tests/test_check_agent_state.py를 추가했습니다.
.claude/agent-state.json이 여전히 무시되고 로컬 전용임을 확인했습니다.

이를 통해 Fable/Claude는 더 안전한 재개 가능한 에이전트 상태 시스템을 갖게 되었습니다.
2. PR #453 병합 — 빌드 위생 / 마이그레이션 기준선 정리 (Build hygiene / migration baseline cleanup)

병합된 내용:
ecba98b2 chore(build-hygiene): refresh migrations baseline + fix stale/side-effecting https://t.co/cnzcHUWE 테스트 (#453)

수정된 내용:

migrations/.migrations-baseline.json을 새로 고쳤습니다.
오래된 마이그레이션 기준선 실패를 제거했습니다.
실제 기준선 파일을 변경하던 테스트를 수정했습니다.
오래된 Supabase 테이블 경고 테스트 동작을 수정했습니다.

python scripts/check.py가 마이그레이션을 녹색으로 만들었습니다.
https://t.co/cnzcHUWE의 모든 실패를 실제 T-L42 로컬 운영자 부채로 줄였습니다.
이는

이것은 단순한 도구가 아닌 실제 제품 서비스 코드였습니다.

Live T-L42 검증 수행 — 그리고 실제로 남아있는 버그를 발견했습니다
사용자는 다음 질문으로 배포된 앱을 테스트했습니다:
NVDA에 대해 지금 어떻게 생각하세요?
실패한 이유는 TORQ AI가 여전히 다음과 같이 말했기 때문입니다:
NVDA는 204.87달러이며, 오늘 154M주 거래량으로 2.85% 상승했습니다
이는 PR #454가 프롬프트/가드레일 구조를 개선했지만, 프롬프트만으로는 충분하지 않았음을 의미합니다.
테스트는 다음을 확인했습니다:

눈에 보이는 스캐폴드 누출 없음
소스 코드에서 신원이 더 이상 명백하게 하드코딩되지 않음
하지만 실시간 가격/거래량 조작은 여전히 발생함

따라서 우리는 operator_owed_T-L42.md를 만들지 않은 것이 올바랐습니다.

다음 수정 사항 식별 — T-L42B
다음 범위가 지정된 수정 사항은 다음과 같습니다:
fix/t-l42b-live-quote-refusal

목적:

'NVDA에 대해 지금 어떻게 생각하세요?'와 같은 티커/현재 시장 요청을 감지합니다.
실시간 시장 데이터가 실제로 주입되었는지 추적합니다.
시장 데이터 요청의 경우에만 더 강력한 '이번 턴에는 실시간 데이터 없음' 블록을 주입합니다.

모델이 가격/변동/거래량을 조작하는 경우 안전한 폴백(fallback)을 강제합니다.
나이가, 신고 상태, 배우자, 소득과 같은 PII(개인 식별 정보) 덩어리를 모델이 받지 않도록 소유자 신원을 정리합니다.

이것이 올바른 다음 PR입니다.
실제 시간 추정치
오늘 눈에 보이는 작업량을 바탕으로, 저는 이것을 대략 다음과 같이 예상합니다:

월별 시계 흐름(wall-clock workflow)로 3~5시간
하지만 실제 활성 Fable/Claude 작업 시간은 훨씬 적었을 가능성이 높습니다. 왜냐하면 많은 시간이 다음을 기다리는 데 사용되었기 때문입니다:

github 체크 대기
Vercel/Railway 배포 체크 대기
수동 PR 검토/병합 단계
로컬 동기화 단계
제가 초기에 몇 가지를 과도하게 검증한 것

Active Fable/Claude 구현 및 분석: 약 60–120분
CI/배포 대기 + 수동 검토/병합 오버헤드: 약 60–120분
추가 반복 검증/토큰 낭비: 약 20–40분
따라서 생산적인 핵심 작업 시간은 아마도 1.5~~2.5시간이었고, 전체 벽시계(wall-clock) 과정은 3~~5시간에 가까웠습니다.
결론적으로
오늘 달성한 것은 다음과 같습니다:

병합된 PR 3개
새로운 안전 검증기(safety validator) 1개
빌드 위생 정리(build-hygiene cleanup) 1건
프로덕션 가드레일 개선 1건
라이브 배포 검증 1건
발견된 실제 잔여 버그 1개
명확하게 범위가 정해진 다음 PR 1개

이는 매우 생산적인 하루였습니다. 가장 큰 교훈은 다음과 같습니다: Fable 5는 유용하지만, 워크플로우를 간결하게 유지해야 합니다. GitHub 상태가 'green'으로 표시되고 범위가 정해지면, 재확인하는 것을 멈추고 병합 또는 라이브 검증 단계로 넘어가야 합니다.

@ClaudeDevs

AI 자동 생성 콘텐츠

원문 바로가기

Fable-5와 GPT-5.5를 활용하여 오늘 달성한 내용 분석

요약

핵심 포인트

댓글