19개의 실제 사이트에서 AI 브라우저 에이전트를 벤치마킹하며 배운 점

요약

AI 브라우저 에이전트의 효율성을 높이기 위해 노이즈 제거 및 보안 기능을 제공하는 'Agent Browser Shield'의 벤치마크 결과를 공유합니다. 웹 페이지의 불필요한 요소를 제거함으로써 토큰 비용을 절감하고 에이전트의 작업 성공률을 향상시킬 수 있음을 입증했습니다.

핵심 포인트

Agent Browser Shield를 통해 평균 약 11%의 토큰 비용 절감 가능
노이즈가 많은 사이트(예: weather.gov)에서는 최대 84%까지 토큰 낭비 방지
데이터 정제를 통해 에이전트의 작업 성공률이 81%에서 91%로 향상
개인정보 마스킹 및 프롬프트 인젝션 차단 기능 제공

모두가 당신을 대신해 웹을 탐색하는 AI 에이전트(AI agents)를 만들고 있습니다. 하지만 실제로 외부에서 얼마나 잘 작동하는지 측정하는 사람은 거의 없습니다. 그래서 제가 직접 해보았습니다.

최근 PixieBrix에서 우리는 브라우저 에이전트와 웹 사이에 위치하는 오픈 소스 레이어인 Agent Browser Shield를 구축해 왔습니다.

이 도구는 페이지가 모델에 도달하기 전에 세 가지 작업을 수행합니다: 노이즈(쿠키 배너, 내비게이션, 광고, 푸터) 제거, 개인정보(PII) 및 자격 증명 마스킹, 그리고 보이지 않는 텍스트와 HTML 주석에 숨겨진 프롬프트 인젝션(prompt injection) 차단입니다.

이러한 작업이 토큰 비용(token costs)을 줄이는 데 실제로 도움이 되는지 확인하기 위해 실제 수치가 필요했고, 그래서 벤치마크 테스트를 실행한 후 그 결과를 공유하고자 합니다.

설정 (The setup)

동일한 에이전트와 동일한 작업을 두 번 실행합니다: 한 번은 쉴드(shield)를 끈 상태(baseline), 한 번은 켠 상태(guarded)입니다. 에이전트는 Browserbase 클라우드 브라우저에서 실행되는 gpt-5-mini입니다. LLM 심사위원(claude-sonnet-4-6)이 각 실행 결과가 작업의 성공 기준을 통과했는지 여부를 패스/페일(pass/fail)로 채점하며, 테스트 프레임워크(harness)가 토큰과 비용을 추적합니다. n=1은 우연일 수 있으므로, 노이즈를 줄이기 위해 각 셀당 클린 세트(clean set)를 3회씩 실행했습니다.

결과 1: 에이전트는 페이지의 쓰레기 데이터에 엄청난 양의 토큰을 낭비합니다

쉴드는 평균적으로 토큰을 약 11% 절감했습니다 (모든 테스트 통틀어 2.33M → 2.07M). 하지만 평균값은 실제 상황을 가리고 있습니다. 노이즈가 많은 페이지에서는 훨씬 더 극적인 차이가 나타납니다:

weather.gov: 에이전트가 일기 예보 주변의 요소들에 토큰의 약 84%를 소모합니다.
Target: −51%
IKEA: −52%
Etsy: −37%
Amazon: −19%

chart showing results from benchmark test

이 모든 것들은 작업 수행에는 아무런 도움이 되지 않으면서 당신이 비용을 지불해야 하는 토큰들입니다.

결과 2: 페이지를 정제함으로써 에이전트의 정확도가 향상되었습니다

이 부분은 예상치 못했습니다. Shield(보호 기능)를 켰을 때 작업 성공률(Task success)이 81%에서 91%로 상승했습니다. 에이전트가 광고, 쿠키 배너, 채팅 위젯 등을 헤치며 나아가지 않아도 될 때, 걸려 넘어지는 일이 줄어들고 작업을 더 자주 완료합니다. 정확도 향상 폭은 토큰 절감 효과보다 작고 변동성(noisy)이 크기 때문에 과장해서 말씀드리지는 않겠지만, 정제된 데이터 세트(clean set)에서는 일관되게 나타났습니다.

직접 실행해 보기

전체 하네스(harness)는 오픈 소스입니다. 작업 목록(CSV 파일)과 본인의 모델을 가져오면, Shield 적용 전후의 비교를 실행하고 결과를 채점해 줍니다.

uv run scripts/benchmark_run.py \
  --scenarios benchmark/scenarios.example.yaml \
  --tasks benchmark/tasks.csv -n 3
...

주의사항: 이 결과는 gpt-5-mini 전용이며, n=3이고, 실제로 로드되는 사이트들로만 구성된 슬라이스(slice) 데이터입니다. 이는 방향성을 보여주는 신호(directional signal)일 뿐, 출판된 논문이 아닙니다. 작업별 수치는 변동성이 큽니다. 집계된 수치(aggregate)가 신뢰할 수 있는 주장입니다.

브라우저 에이전트(browser agents)를 구축하고 계신다면, 여러분의 작업 목록에 이 도구를 적용해 보고 수치가 유지되는지 알려주시면 감사하겠습니다. 리포지토리(Repo)는 여기 있습니다: https://github.com/pixiebrix/agent-browser-shield . 스타(Star)를 눌러주시면 더 많은 사람이 발견하는 데 도움이 되며, 저희가 이 작업을 계속 지속해야 한다는 신호가 됩니다!

AI 자동 생성 콘텐츠

원문 바로가기