AI 브라우저 에이전트 시장에 반기를 든 Alibaba의 오픈소스 프로젝트 PageAgent 소개
요약
Alibaba가 스크린샷 기반이 아닌 텍스트 기반의 새로운 오픈소스 브라우저 에이전트인 PageAgent를 공개했습니다. 기존 방식보다 빠르고 비용 효율적인 컴퓨터 사용 방식을 제안합니다.
핵심 포인트
- 기존 스크린샷 기반 에이전트의 느린 속도와 높은 비용 문제 해결
- 비전 모델 대신 페이지의 텍스트 데이터를 활용하는 방식 채택
- OpenAI Operator 및 Claude Computer Use와 차별화된 접근법
- 23k 이상의 스타를 기록하며 높은 기술적 관심을 얻음
모두가 화면을 스크린샷으로 찍는 AI 브라우저 에이전트에 매달려 월 $200를 지불할 때, Alibaba가 아무도 모르게 그러한 과정이 전혀 필요 없는 것을 오픈소스로 공개했습니다.
이것은 PageAgent라고 불리며, 23k개의 스타를 기록했고 컴퓨터 사용 방식의 전체 플레이북을 뒤집습니다.
OpenAI의 Operator, Claude의 컴퓨터 사용 등 현재 모든 인기 브라우저 에이전트는 동일한 방식으로 작동합니다. 스크린샷을 찍는다 → 비전 모델(vision model)에 전송한다 → 어디를 클릭할지 추측한다 → 반복한다. 느리고, 비용이 많이 들며, 멀티모달 모델(multimodal models)이 필요합니다.
PageAgent는 이렇게 말합니다.
스크린샷 기반 에이전트 (screenshot-agent) 시대는 Flash처럼 빠르게 저물지도 모릅니다. 페이지는 처음부터 텍스트였습니다.
링크는 댓글에 있습니다👇
AI 자동 생성 콘텐츠
본 콘텐츠는 X @nainsidwiv50980 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기