Claude Code가 단순히 '완료'라고 말하는 대신 자체 작업을 검증할 수 있는 방법을 만들었습니다

Claude Code가 제 결제 엔드포인트에서 401 에러를 반환했습니다. 그리고는 완료되었다고 통보했습니다. 저는 이 사실을 3일 동안 알지 못했습니다. 그래서 저는 Iris라는 것을 만들었습니다: 실제 앱 내부에서 실행되며, 에이전트에게 해석해야 할 스냅샷 대신 판정(pass/fail + 증거)을 제공하는 MCP 서버입니다. 작동 방식은 다음과 같습니다: 에이전트는 조건(네트워크 200 + 콘솔 깨끗함 + 신호 발생)과 함께 iris_assert()를 호출합니다. Iris는 실제로 실행 중인 앱을 확인하고 { pass: false, evidence: [...] }를 반환합니다 — 무엇이 실패했는지, 실제 값은 무엇이었는지, 그리고 수정해야 할 파일:라인까지 알려줍니다. 정직한 토큰 벤치마크: 일반 루프의 전체 트리 스냅샷보다 73배 적습니다(~100 대 ~6,856). 전체 트리 대 전체 트리: 겨우 약 1.8배입니다. 저는 이 숫자를 숨기지 않습니다. 첫 번째 댓글에 앞서 말씀드리자면: 이것은 Playwright MCP가 아닙니다. Playwright는 별도의 브라우저를 구동하고 에이전트에게 스냅샷을 전달합니다 — 에이전트는 여전히 추측해야 합니다. Iris는 실제 앱 내부에서 실행되며 판정을 반환합니다. 둘 다 사용하세요. MIT, 개발 전용, localhost 전용입니다. npm i -D @syrin/iris 댓글에서 모든 질문에 답변드리겠습니다.
submitted by /u/hack_the_developer
[link] [comments]

Insights

Claude Code가 단순히 '완료'라고 말하는 대신 자체 작업을 검증할 수 있는 방법을 만들었습니다

요약

핵심 포인트

댓글

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다

@Solana에서의 AI 현황

이번 주의 AI 가격 변동: DeepSeek는 저렴해지고, Claude Sonnet 5는 비싸진다

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다

@Solana에서의 AI 현황

이번 주의 AI 가격 변동: DeepSeek는 저렴해지고, Claude Sonnet 5는 비싸진다