AI 브라우저 에이전트 시장에 반기를 든 Alibaba의 오픈소스 프로젝트 PageAgent 소개

모두가 화면을 스크린샷으로 찍는 AI 브라우저 에이전트에 매달려 월 $200를 지불할 때, Alibaba가 아무도 모르게 그러한 과정이 전혀 필요 없는 것을 오픈소스로 공개했습니다.

이것은 PageAgent라고 불리며, 23k개의 스타를 기록했고 컴퓨터 사용 방식의 전체 플레이북을 뒤집습니다.

OpenAI의 Operator, Claude의 컴퓨터 사용 등 현재 모든 인기 브라우저 에이전트는 동일한 방식으로 작동합니다. 스크린샷을 찍는다 → 비전 모델(vision model)에 전송한다 → 어디를 클릭할지 추측한다 → 반복한다. 느리고, 비용이 많이 들며, 멀티모달 모델(multimodal models)이 필요합니다.