Stagehand: 깨지기 쉬운 코드인가 예측 불가능한 AI인가, 두 가지 선택지를 끝내는 브라우저 자동화

요약

Stagehand는 기존 브라우저 자동화의 한계인 '깨지기 쉬운 코드'와 '예측 불가능한 AI' 사이의 간극을 해결하는 오픈소스 SDK입니다. 개발자가 AI에 위임할 작업의 양을 직접 선택할 수 있도록 설계되어, 안정성과 유연성을 동시에 제공합니다.

핵심 포인트

기존 Selenium/Playwright의 셀렉터 기반 유지보수 문제 해결
완전 자율형 에이전트의 예측 불가능성 및 디버깅 어려움 보완
observe()와 act() 조합을 통해 AI 확인 후 코드로 반복 실행 가능
반복 업무는 Stagehand, 일회성 탐색은 순수 에이전트로 역할 분담 권장

월 500만 건이 넘는 영수증 처리를 AI가 대신하고, 재무 에이전트 전체에서 월 약 4,200시간의 수작업을 줄이는 것이 미국 지출 관리 서비스 Ramp(램프)의 사례입니다(수치는 개발사 공식 사례 기준). 조달 에이전트를 구축한 것은 단 3명의 팀이었습니다.

상대방 사이트에 API(프로그램에서 제어하는 공식 창구)가 없어 사람의 수작업에 의존해야 했던 업무를, 브라우저를 조작하는 AI가 대신하기 시작했습니다.

주역은 두 가지입니다. AI에게 브라우저 조작을 시키는 오픈소스 SDK Stagehand(스테이지핸드)와 이를 실제 규모로 구동하는 기반 시스템 Browserbase(브라우저베이스)입니다(미 Browserbase사 제작). Stagehand는 브라우저 조작 자동화 도구인 Playwright(플레이라이트)를 토대로 한 AI 브라우저 자동화 도구이며, 유사한 메커니즘은 10년 이상 전부터 존재했습니다. 왜 이제 와서야 실무에 적용되었을까요? 핵심은 그 설계에 있습니다.

실제 환경에서 사용하는 브라우저 자동화에는 오랫동안 두 가지 유형의 도구가 있었고, 둘 다 약점을 안고 있었습니다.

하나는 코드로 작성하는 타입입니다. Selenium(셀레니움)이나 앞서 언급된 Playwright는 조작 대상을 셀렉터(button:nth-child(3)와 같은 HTML상의 '주소')로 지정합니다. 따라서 UI가 조금만 바뀌어도 주소가 틀어지고, 어제까지 작동했던 스크립트가 오늘 멈추곤 했습니다. 이는 '고장 난 셀렉터를 계속 수정하는 유지보수'가 되기 쉬웠습니다.

다른 하나는 AI에게 전적으로 맡기는 타입입니다. 완전 자율형 에이전트(OSS의 Browser Use가 대표적)는 유연하지만, 매번 그 자리에서 생각하기 때문에 움직임 예측이 어렵고, 실행할 때마다 변동성이 있으며 디버깅이 어렵습니다. 공식 리포지토리에서도 기존 도구들은 '저수준 코드인가, 예측 불가능한 에이전트인가'라고 말합니다. 정확하지만 깨지기 쉬운 코드인가, 유연하지만 읽을 수 없는 AI인가—오랜 기간의 양자택일이었습니다.

Stagehand는 이 두 가지 선택지를 없앱니다. 공식에 따르면

만능은 아닙니다. 캐시(Cache)가 작동하지 않는 '매번 다른 조작'만 반복하는 용도에서는 LLM 비용이 급증합니다. 타사 사이트를 자동 조작하는 것이 이용 약관이나 법령에 저촉될 수 있는 점 또한 사용하는 측의 책임입니다. **반복되는 업무는 Stagehand, 일회성 탐색은 순수 에이전트(Pure Agent)**라는 식으로 역할을 나누는 것이 현실적일 것입니다.

마지막으로, 4가지 프리미티브(Primitive)와 '사전 확인 후 반복하는' 흐름을 최소한의 코드로 살펴보겠습니다. API 이름은 공식 리포지토리(Repository)와 공식 문서(v3)를 준 따릅니다. 동일한 내용은 Python 버전으로도 작성할 수 있습니다.

import {
Stagehand,
}
...

act()에서 agent()로 나아갈수록 AI에 위임하는 양이 늘어납니다. 그중에서도 observe() → act()의 조합이 본 기사의 핵심인 "AI로 사전 확인하고, 반복은 코드로 확실하게"를 체현합니다. Stagehand는 MIT 라이선스의 오픈 소스(OSS)로, npx create-browser-app을 실행하면 즉시 테스트해 볼 수 있습니다.

Stagehand는 브라우저 자동화의 "깨지기 쉬운 코드인가, 예측 불가능한 AI인가"라는 이분법을, AI에 위임하는 양을 개발자가 선택할 수 있는 설계로 종결시켰습니다. 여러분의 직장에도 API가 없다는 이유만으로 인력에 의존하고 있는 업무가 남아있지는 않습니까?

Browserbase (Stagehand) 공식 리포지토리 - GitHub: browserbase/stagehand: https://github.com/browserbase/stagehand
Stagehand 공식 문서 - Observe(observe()/act()・plan-then-execute・서버 측 캐시): https://docs.stagehand.dev/basics/observe
Browserbase 공식 사례 - How Ramp built its new finance agents(autonomous finance / Agent Identity): https://www.browserbase.com/blog/case-study-ramp
Browserbase 공식 사례 - ShopVision(12억 데이터 포인트 / fan-out): https://www.browserbase.com/blog/case-study-shopvision
Browserbase 공식 사례 - How Amplitude transformed sales demos with browser automation: https://www.browserbase.com/blog/how-amplitude-transformed-sales-demos-with-browser-automation
Browserbase 공식 사례 - Parcha(금융 컴플라이언스 심사 자동화): https://www.browserbase.com/blog/case-study-parcha
Browserbase 공식 사례 - Vercel(사내 Web/BI 시스템 Prism): https://www.browserbase.com/blog/case-study-vercel
Browser Use 공식 리포지토리(대조 대상인 완전 자율형 에이전트) - GitHub: browser-use/browser-use: https://github.com/browser-use/browser-use
Cloudflare 공식 블로그 - Web Bot Auth(Agent Identity / 서명을 통한 신원 증명): https://blog.cloudflare.com/web-bot-auth/

AI 자동 생성 콘텐츠

원문 바로가기

Stagehand: 깨지기 쉬운 코드인가 예측 불가능한 AI인가, 두 가지 선택지를 끝내는 브라우저 자동화

요약

핵심 포인트

댓글