AI Builder Notes - May 2026

에이전트 워크플로우, 브라우저 트레이스, 모델 루프 및 가드레일을 중심으로 정리한 제가 좋아요 누른 트윗 피드에서 가져온 AI 지원 노트입니다.

실질적인 시사점 (Practical takeaways)

에이전트가 아닌 워크플로우부터 시작하세요. 유용한 에이전트 작업은 진실의 출처(source of truth), 좁은 액션, 검증기(verifier), 그리고 중지 조건(stop condition)을 갖추어야 합니다. “이 레포를 검토해라”는 모호합니다. “다음 경로들에서 인증 버그를 찾고, 파일 라인을 인용하며, 관련 테스트를 실행하고, 첫 번째 신뢰할 수 있는 익스플로잇 경로 이후에 중지하라”가 워크플로우입니다.
1. claude 코드에서 동적 워크플로우(dynamic workflows)를 사용하세요 - 이는 워크플로우를 생각하는 데 필요한 분위기(vibe bits)를 처리할 수 있습니다. 다음과 같이 생각해 보세요. 여러 에이전트가 다양한 단계에서 구성되는 전체 워크플로우를 자연어로 설명할 수 있습니다 - 문서 업데이트, 테스트 통과, 보안 검토 수행 및 Playwright 테스트도 수행하고 싶다. 동적 워크플로우는 어떤 부분이 병렬로 나뉠 수 있고 무엇을 순차적으로 해야 하는지 파악합니다. 플로우차트를 생성하고 이를 위한 JS 코드를 작성합니다. 이는 서브 에이전트들을 대규모로 그리고 결정론적으로 실행할 수 있는 JS 스크립트입니다 []
플래너(Planner)/실행기(executor) 분리가 최선입니다. 비싼 모델을 취향, 분해(decomposition), 그리고 위험 발견에 사용하세요. 작업에 테스트, 루브릭, 로그 또는 예시가 있는 경우, 반복적인 구현에는 더 저렴하거나 좁은 모델을 사용하세요. []
에이전트 워크플로우를 모델 이름만으로 판단하지 마세요. 루프가 레포 접근, 루브릭, 툴 호출을 검사하는 방법, 그리고 검증기를 갖추고 있다면, 덜 유행하는 모델도 여전히 유용한 작업을 수행할 수 있습니다. Letta Code / GLM 5.1 리뷰-봇 예시는 그 이유로 흥미롭습니다. 단순히 “누군가 X 대신 Y를 사용했다”라는 사실 자체가 흥미로운 것은 아닙니다. []
거대한 툴 메뉴보다 작은 인터페이스를 선호하세요. MCP 툴 호출 정의가 컨텍스트를 망치고 있습니다!

monday.com의 GraphQL 예시는 가장 명확한 비용 경고였습니다. 하나의 작업이 SDK/코드 모드(code-mode)를 통해서는 15k 토큰을 사용했지만, 실제 MCP 서버를 통해서는 158k 토큰을 사용했습니다. MCP는 유용하지만, 도구 메뉴가 자동으로 효율적인 인터페이스가 되는 것은 아닙니다. [[4](https://blog.cloudflare.com/code-mode/) [[5](https://x.com/YoniBraslaver/status/2055260079700791544)]

브라우저 작업의 경우, 트레이스(trace)를 저장하세요. 워크플로(workflow)를 한 번 실행하여 낭비된 동작을 점검하고, 반복되는 클릭을 안전한 범위 내에서 직접 읽기(direct reads)나 JavaScript로 교체한 다음, 더 나은 경로를 스킬(skill)로 저장하세요. 이것이 브라우저 에이전트(browser agents)가 단순히 더 자동화되는 것을 넘어 더 저렴해지는 방법입니다. [[6](https://x.com/kylejeong/status/2052497318017208470)]
보안은 하네스(harness) 내에 설계되어야 합니다. 중단 규칙(stop rules), 경로 재시작(restart paths), 권한 게이트(permission gates), 패키지 연령 지연(package-age delays), 비밀 프록시(secret proxies), 브랜치 게이트(branch gates), 로그(logs), 그리고 인간의 승인(human approval)이 곧 시스템입니다. "모델에게 조심하라고 말하기"는 시스템이 아닙니다.

에이전트 워크플로 (Agent workflows)

"동적 워크플로(dynamic workflows)"의 유용한 버전은 기계적입니다. Claude Code에 상위 수준의 작업(high-level task)을 주고 "워크플로(workflow)"라고 말하세요. 그러면 모델이 오케스트레이션 스크립트(orchestration script)를 작성합니다. 그 스크립트는 더 작은 작업 단위들을 생성하고, 조정된 서브 에이전트(subagents)들을 시작하며, 각 에이전트에게 제한된 목표(bounded target)를 부여한 다음, 그들의 출력물을 하나의 최종 답변이나 패치(patch)로 다시 가져옵니다. [[1](https://x.com/ClaudeDevs/status/2060044853279617150)]

이는 작업이 실제적인 형태를 가질 때 유용합니다. 예를 들어, 5개의 서비스를 점검하거나, 3개의 구현체를 비교하거나, 각 후보 수정 사항을 테스트하거나, 로그인된 브라우저에서 계정별 데이터를 수집하거나, 여러 각도에서 대규모 디프(diff)를 검토하는 경우입니다. 단 하나의 신중한 답변만으로 충분한 질문에는 적합하지 않습니다.

동일한 패턴이 더 작은 형태에서도 나타났습니다. 한 스레드에서는 GPT-5.5 xhigh를 플래너 (planner)로, Composer 2.5 서브 에이전트 (subagents)를 구현자 (implementers)로 설정했습니다. 즉, 더 강력한 모델이 조사하고, 계획을 작성하며, 브랜치 (branches), 워크트리 (worktrees), PR (Pull Requests)을 위임하는 방식입니다. [[2]] 30분 동안 실행되는 Cursor의 리뷰 기술은 여기에 시간 예산 (time budget)이 추가된 동일한 개념입니다. 즉, 더 깊은 검색, 더 많은 파일 읽기, 더 많은 호출 경로 (call paths) 추적을 수행하며, 빠른 /simplify 명령보다 스치듯 지나가는 댓글 (drive-by comments)을 줄이는 것입니다. [[7]]

"답변하기 전에 100번의 도구 호출 (tool calls)을 수행하라"는 Codex 프롬프트는 많은 에이전트 실행에서 결여된 동작을 명시합니다. 즉, 첫 번째 그럴듯한 답변 후에 멈추지 마라는 것입니다. 더 많이 읽고, 더 많이 반증하며, 그 과정을 보여주라는 의미입니다. [[8]]

모델과 하네스 (harness) 사이의 긴밀한 결합:

Claude Code와 Codex는 서로 다르게 실패하므로, 하네스에는 중단 조건 (stop conditions), 탈출 경로 (escape routes), 그리고 재시작 로직 (restart logic)이 필요합니다. [[9]] 모델은 작업을 계획할 수 있지만, 하네스는 루프 (loops), 오래된 브랜치 (stale branches), 깨진 가정 (broken assumptions), 도구 스팸 (tool spam), 그리고 에이전트가 도움을 요청해야 하는 상황을 감지해야 합니다.

모델 vs 루프 (Model vs loop)

Letta Code와 GLM 5.1 사례를 통한 리뷰 봇 (review-bot)은 유용한 질문을 던집니다. 즉, 루프가 제공한 것이 무엇이기에 더 저렴한 모델을 실행 가능하게 만들었는가 하는 점입니다. 레포지토리 컨텍스트 (Repo context), 리뷰 목적 (review objective), 예상 출력 형태 (expected output shape), 좋은 댓글의 예시, 그리고 불필요한 댓글을 거부하는 방법은 모델의 로고보다 더 중요할 수 있습니다. [[3]]

Ramp의 스프레드시트 검색 사례도 다른 방향에서 얻은 동일한 교훈입니다. 보고에 따르면 강화학습 (RL)으로 훈련된 전문 모델이 좁은 범위의 스프레드시트 검색 작업에서 Opus를 이겼다고 합니다. [[10]] 이것이 모든 팀이 맞춤형 RL을 필요로 한다는 뜻은 아닙니다. 좁고 검증 가능한 작업은 좁은 범위의 훈련 (narrow training), 좁은 범위의 평가 (narrow evals), 그리고 좁은 범위의 인터페이스 (narrow interfaces)에 대한 보상을 줄 수 있다는 의미입니다.

모델이 무엇을 하기를 원하는지 알고 이를 확장(scale)하고 싶다면, 루프/하네스(loop/harness)를 좁게 설정하는 것을 목표로 하십시오. 그러면 훨씬 더 저렴한 비용으로 해결할 수 있습니다.

수만 개의 도구 호출(tool calls)을 명령 코드(Command Code)로 복구하는 것도 이 방식의 또 다른 버전입니다. 도구 사용(Tool use)은 잘못된 형식의 JSON, 잘못된 인자 형태(argument shape), 누락된 상태(missing state), 잘못된 순서, 잘못된 재시도(bad retry)와 같이 반복 가능한 방식으로 실패합니다. 만약 이러한 오류들을 자동으로 복구하거나 포착할 수 있다면, 모델은 더 나은 작업대(workbench)를 갖게 됩니다. [[11]]

Cloudflare의 Code Mode와 MCP의 비교는 여러분이 아마도 가벼운 MCP를 사용하여 컨텍스트 부패(context rot)를 줄여야 한다는 점을 다시 한번 상기시켜 줍니다. 더 정확히 말하면, 원격 서비스에 접속할 때만 MCP를 사용하십시오. 기본적으로는 MCP보다 CLI를 선호하십시오.

이유: GraphQL API 작업 시, SDK/code-mode를 통하면 1단계와 15k 토큰이 소요된 반면, 실제 MCP 서버를 통하면 4단계와 158k 토큰이 소요되었습니다. [[4]] [[5]] 에이전트 인터페이스는 제품의 일부입니다. 가능하다면 모델에게 작고, 타입이 지정되었으며(typed), 작업 형태에 맞춘(task-shaped) API를 제공하십시오. 더 범용적으로 느껴진다는 이유만으로 광범위한 도구 메뉴가 더 낫다고 가정하지 마십시오.

브라우저 기술 (Browser skills)

여기서 가장 구체적인 브라우저 에이전트 사례는 Hermes Agent / Autobrowse입니다. Hacker News 워크플로우의 경우, 트레이스(trace)를 단순화하여 기술(skill)로 저장한 후, 102초에서 35초로, 23턴에서 8턴으로, 그리고 1.46달러에서 0.28달러로 단축되었습니다. [[12]] [[6]]

비결은 마법 같은 브라우저 제어가 아니었습니다. 비결은 반복되는 느린 경로(slow path)를 포착하는 것이었습니다. 만약 에이전트가 매번 동일한 UI를 클릭한다면, 페이지를 검사하고, 가능한 곳에서 상태를 직접 읽으며, 낭비되는 탐색을 제거하고, 더 짧은 경로를 저장하십시오. 그것이 진정한 기술입니다. 워크플로우가 작아지기 때문에 에이전트가 더 빨라지는 것입니다.

주목할 만한 인접 도구들: OpenAI Chrome 플러그인, BrowserCode, Autobrowse, browser-harness, Pi 브라우저 확장 기능, 그리고 Hermes 브라우저 스킬 등이 있습니다. []13[] []14[] []6[] []15[] []16[] []12[] 이 범주는 로그인된 브라우저 작업입니다: 지원 대기열, 내부 도구, 연구, 스크래핑, QA(품질 보증), 관리 운영 및 유용한 데이터가 세션 뒤에 존재하는 모든 것을 포함합니다.

메모리 및 검색 (Memory and retrieval)

Birdclaw는 에이전트에게 Twitter 아카이브에 접근할 수 있게 해주기 때문에 흥미롭습니다. []17[] GBrain은 OpenClaw/Hermes 스타일의 워크플로우 주변 개인 회상 계층을 지적합니다. []18[] PageIndex는 단순한 검색, 심지어 BM25 전용 검색조차도 여전히 자리가 있다는 유용한 상기시켜주는 역할을 합니다. []19[]

Cloudflare는 50개의 저장소(repositories)를 대상으로 Anthropic Mythos를 테스트했습니다. \u21 또 다른 스레드에 따르면, Claude Mythos Preview 덕분에 Firefox는 지난 15개월 동안의 합계보다 더 많은 보안 버그를 4월 한 달 동안 수정할 수 있었다고 합니다. \u22 이를 "AI가 이제 보안을 수정한다"라고 읽지 마십시오. 대신, 범위가 지정된 보안 작업이 에이전트 형태(agent-shaped)로 변모하고 있는 것으로 읽어야 합니다: 알려진 저장소, 알려진 버그 클래스, 패치 후보, 리뷰 루프, 그리고 여전히 머지(merging)에 대한 책임은 인간에게 있다는 점 말입니다.

여기서 가장 유용하고도 지루한 가드레일(guardrail)은 패키지 출시 지연(package-age delay)입니다. pnpm과 npm 모두 너무 최근에 게시된 패키지의 설치를 피할 수 있는 설정을 가지고 있습니다. \u23 \u24 이는 에이전트의 경우 더욱 중요합니다. 왜냐하면 에이전트는 기계의 속도로 기꺼이 의존성(dependencies)을 설치할 것이기 때문입니다. 약간의 지연은 일부 공급망 공격(supply-chain attacks)이 워크플로에 진입하기 전에 포착해 줍니다.

설정할 가치가 있는 두 가지 기본값은 다음과 같습니다:

pnpm config set minimumReleaseAge 2880

npm config set min-release-age=2d

Clawvisor도 같은 범주에 속합니다: 모델에 가공되지 않은 자격 증명(raw credentials)을 넘겨주지 않으면서 에이전트의 액세스를 승인하는 방식입니다. \u25 이러한 따분한 권한 계층(permission layers)은 에이전트가 모든 권한을 가지고 대시보드를 클릭하며 돌아다니는 또 다른 데모보다 훨씬 더 흥미롭습니다.

열어볼 만한 도구들

Harness engineering learning site: 모델 주변의 구성 요소들—평가 (evals), 중단 규칙 (stop rules), 재시도 (retries), 로그 (logs), 그리고 검증 (verification)—에 대한 명칭이 필요하다면 유용합니다.
LiteParse v2: PDF가 병목 현상 (bottleneck)이 되는 에이전트/RAG 워크플로우를 위한 Rust 기반 PDF 파싱 (parsing) 도구입니다. 여기서 중요한 질문은 "빠른가?"가 아니라 "다운스트림 모델 (downstream model)이 필요로 하는 부분들을 보존하는가?"입니다.
Patter: 여러 제공업체를 지원하며 단 몇 줄의 코드로 구현하는 음성 AI입니다. 특정 스택을 먼저 결정하지 않고 음성 워크플로우를 프로토타이핑 (prototyping)하고 싶을 때 유용합니다. [[27]]
Minions: Hermes Agent 작업을 위한 미션 컨트롤 (mission-control) 스타일의 UI입니다. 여러 개의 로컬 에이전트를 실행 중이며 제어 평면 (control plane)이 필요한 경우 살펴볼 가치가 있습니다. [[28]]
OpenRouter Pareto Code: 점수 임계값 (score threshold) 이상인 모델 중 가장 저렴한 코드 생성 가능 모델로 라우팅 (route)합니다. 이는 자주 실행되는 에이전트 루프 (agent loops)를 위한 적절한 수준의 지루한 최적화 (optimization)입니다. [[29]]
OpenRouter Response Caching: 테스트, 재시도, 그리고 반복되는 에이전트 접두사 (agent prefixes)에 유용합니다. 캐싱 (caching)은 화려하지 않지만, 반복되는 컨텍스트 (context)는 에이전트 비용이 조용히 증가하는 지점입니다. [[30]]
Flue: 런타임 (runtimes)과 비밀 프록시 (secret proxy)를 갖춘 TypeScript 기반의 샌드박스 에이전트 (sandboxed-agent) 프레임워크입니다. 유용한 형태는 에이전트에게 모든 권한을 주는 대신 통제된 런타임에서 실행하는 것입니다. [[31]]
Zero: 명시적 기능 (explicit capabilities), JSON 진단 (diagnostics), 그리고 타입 안전한 수정 (typed safe fixes)을 제공하는 에이전트용 프로그래밍 언어입니다. 명시적 기능은 느낌 (vibes)이나 지시 사항 (instructions)보다 더 깔끔한 인터페이스를 제공하므로 저장해 둘 가치가 있습니다. [[32]]

AI Builder Notes - 2026년 5월

요약

핵심 포인트