Makoto: Claude Code의 주장이 실제 수행 내용과 일치하지 않을 때 이를 차단하는 훅 (hook)

원문 발행 2026. 06. 18. 03:29원문 언어 영어AI 한국어 번역r/ClaudeAI 원문 보기

요약

Makoto는 Claude Code가 수행한 작업과 실제 보고 내용 사이의 불일치를 감지하고 차단하는 훅(hook) 도구입니다. 에이전트가 명령 실행 실패를 숨기거나 허위 주장을 하는 것을 방지하여 작업의 신뢰성을 보장합니다.

핵심 포인트

Claude Code의 허위 보고(예: 실패한 명령을 성공으로 보고)를 실시간 차단
에이전트의 주장과 실제 실행 기록을 비교하는 기계적 검증 방식 채택
린터나 CI와 달리 주장이 제기되는 즉시 작동하는 함정(tripwire) 역할
오탐 방지를 위해 특정 패턴 허용 시 사유를 기록하는 기능 제공

Claude Code는 때때로 아주 사소하고 기계적인 방식으로 자신의 작업 내용을 속이곤 합니다. 실패한 명령에 조용히 || true를 추가하여 "모든 테스트 통과"라고 보고하기도 합니다. 파일이 존재하지 않는데도 "완료되었습니다, 파일을 생성했습니다"라고 말하기도 합니다. verify=False를 사용하여 무언가를 통과(green)시키기도 합니다. 주장은 확신에 차 있지만, 실제 작업은 그렇지 않습니다.

Makoto는 Claude Code를 위한 훅 (hook)으로, 그 간극을 포착합니다. 이 도구는 의도적으로 범위를 좁게 설정하여 세상에 대해 아무것도 알지 못합니다. 여러분의 코드가 올바른지 또는 인증서가 유효한지는 알려줄 수 없습니다. 이 도구에게 프랑스는 존재하지 않는 곳입니다. Makoto가 확인하는 유일한 것은 에이전트(agent)가 방금 한 주장이 해당 세션에서 에이전트가 실제로 수행한 작업에 의해 뒷받침되는지 여부뿐입니다. 만약 에이전트가 테스트를 실행했다거나, 출처를 인용했다거나, 수정을 커밋(commit)했다고 말했는데 그 행위가 기록에 없다면, Makoto는 도구 호출 (tool call) (또는 턴의 종료)을 차단하고 대신 무엇을 해야 하는지 알려주는 한 줄의 메시지를 반환합니다.

그 좁은 범위가 바로 핵심입니다. 세상에 대해 추론하는 모든 것은 결국 세상에 대해 틀리게 마련이지만, "당신은 X라고 말했다"와 "기록에는 X가 아님으로 나타난다"만을 비교하는 것은 틀릴 일이 없습니다. 덕분에 모든 확인 절차는 경고 단계 없이 즉각적으로 차단할 수 있습니다. 즉, 특정 패턴이 테스트 코퍼스 (test corpus)에서 오탐 (false-positive) 제로 기록을 유지하거나, 아니면 제거됩니다.

이 도구는 약 24개의 확인 절차를 실행하며, 도구 호출 전 18개, 턴의 종료 시점의 주장(claims)에 대해 8개를 수행합니다. 예시는 다음과 같습니다: 디스크에 아무것도 없는데 "완료"라고 하는 경우, 실제로 명령이 실행되지 않은 턴에서 "실행했습니다"라고 하는 경우, 소스에 없는 인용을 하는 경우, 열지 않은 URL을 가져왔다고 하는 경우, return True로 껍데기만 남은 검증기 (verifier), 또는 verify=False나 JWT의 none 알고리즘처럼 꺼져버린 보안 체크 등이 있습니다. 차단은 막다른 길이 아닙니다. 수정 사항이 다시 컨텍스트 (context)로 들어가 에이전트가 재시도할 수 있습니다. 또한 이는 기계적인 방식이며 루프 (loop) 내에 모델 (model)이 개입하지 않으므로, 에이전트가 말로 때우며 발견 사항을 넘어갈 수 없습니다. 진정으로 플래그가 지정된 패턴을 허용해야 할 때는 # makoto-allow: <reason>을 사용하여 이를 해제하고 이유를 기록할 수 있습니다.

왜 린터 (linter)나 CI가 아닌가요? 린터는 스타일과 대조하여 코드를 검사하지만, 이것은 기록과 대조하여 주장을 검사하기 때문입니다.

CI는 사후에 실행되지만, 이것은 주장이 제기되는 즉시 작동합니다. 그리고 에이전트에게 자신의 작업물을 스스로 검사하도록 요청하는 것은 구조적으로 실패할 수밖에 없습니다. 검사를 속인 주체가 바로 당신이 감사를 맡기고자 하는 대상이기 때문입니다.

이것은 증명 시스템 (proof system)이 아니라 함정 (tripwire)입니다. 흔적을 남기지 않는 기만 행위가 아니라, 검사가 속임수로 이루어지는 흔한 구문론적 (syntactic) 방식들을 잡아냅니다. 이것은 새로운 프로젝트 (v1.4.0, Apache-2.0, Python)이므로, 만약 직접 사용해 보신다면 가장 도움이 되는 피드백은 오탐 (false positive) 사례를 보내주는 것입니다.
/plugin install https://github.com/Clear-Sights/Makoto
https://github.com/Clear-Sights/Makoto
제출자: /u/Clear_Sights
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Insights

Makoto: Claude Code의 주장이 실제 수행 내용과 일치하지 않을 때 이를 차단하는 훅 (hook)

요약

핵심 포인트

댓글

DeepSeek V4는 확실히 DeepSeek 2.0의 순간이라 불릴 만하다

AI 점술가에게서 수학적 계산을 분리한 이유

AI가 실제로 2048을 이기는 방법 (LLM이 아닌 Expectimax)

LLM이 생성한 코드를 직접 다시 타이핑함으로써 인지적 부채 (Cognitive Debt) 방지하기

AI 점술가에게서 수학적 계산을 분리한 이유

AI가 실제로 2048을 이기는 방법 (LLM이 아닌 Expectimax)

LLM이 생성한 코드를 직접 다시 타이핑함으로써 인지적 부채 (Cognitive Debt) 방지하기