arXiv논문2026. 06. 10. 11:17

WebChallenger: 신뢰할 수 있고 효율적인 범용 웹 에이전트

요약

WebChallenger는 모델 규모 대신 아키텍처 설계를 통해 효율적인 웹 탐색을 구현하는 에이전트 프레임워크입니다. PageMem을 기반으로 선택적 주의, 지속적 기억, 절차적 유창성을 모방하여 오픈 웨이트 모델로도 높은 성능을 냅니다.

핵심 포인트

PageMem을 통한 구조화된 페이지 표현 방식 도입
분할 정복 관찰 파이프라인으로 추론 비용 절감
경량화된 탐색 및 메모리 시스템 구축
복합 동작 워크플로우를 통한 상호작용 압축
오픈 웨이트 모델로 최첨단 폐쇄형 시스템에 근접한 성능 달성

자율적인 웹 탐색(Autonomous web navigation)은 LLM 에이전트에게 여전히 어려운 과제로 남아 있으며, 가장 강력한 범용 시스템들은 추론 비용(inference cost)이 너무 높아 에이전트가 가장 유용하게 쓰일 수 있는 반복적인 작업에 적용하기에는 부담스러운 폐쇄형(proprietary) 추론 모델들에 의존하고 있습니다. 우리는 이러한 격차가 모델 능력의 부족 때문이 아니라, 인간의 세 가지 인지적 장점인 관련 페이지 영역에 대한 선택적 주의(selective attention), 웹사이트 구조에 대한 지속적인 기억(persistent memory), 그리고 일반적인 상호작용 패턴에 대한 절차적 유창성(procedural fluency)을 복제하지 못하는 에이전트 아키텍처(agent architectures)에서 기인한다고 주장합니다. 우리는 모델 규모가 아닌 아키텍처 설계를 통해 각 격차를 해결하는 웹 에이전트 프레임워크인 WebChallenger를 소개합니다. 이 프레임워크는 DOM으로부터 결정론적으로 구축되어 각 페이지를 짧은 요약이 포함된 의미론적 섹션(semantic sections)의 계층 구조로 노출하는 PageMem: 구조화된 페이지 표현(structured page representation)을 중심으로 구축되었습니다. 이 공유된 기반 위에서 우리는 세 가지 인지적 장점을 모방하는 세 가지 메커니즘을 구축했습니다: 에이전트가 섹션 요약을 훑어보고 작업 관련 영역에서만 세부 정보를 추출할 수 있게 하는 분할 정복(divide-and-conquer) 관찰 파이프라인; 각 웹사이트를 한 번씩 탐색하여 페이지와 요소 동작의 재사용 가능한 지도를 구축하는 경량화된 탐색 및 메모리 시스템; 그리고 일반적인 다단계 상호작용을 단일 에이전트 동작으로 압축하여 부분적인 상태 변화를 자동으로 처리하는 복합 동작 워크플로우(compound action workflows)입니다. 이 세 가지 모두 PageMem 위에서 작동하기 때문에, 이 프레임워크는 사이트별 어댑터(site-specific adapters) 없이도 다양한 웹사이트에 걸쳐 일반화됩니다. 미세 조정(fine-tuning) 없이 기성 오픈 웨이트(open-weight) 모델을 사용하여, 우리 시스템은 WebArena에서 56.3%, VisualWebArena에서 48.7%, Online-Mind2Web에서 51.0%, WorkArena에서 70.9%를 달성하며, 비용은 극히 일부만 사용하면서도 최첨단 폐쇄형 시스템(frontier proprietary systems)에 근접하는 성능을 보여줍니다. 우리의 코드는 https://github.com/jayoohwang1/webchallenger 에 공개되어 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

WebChallenger: 신뢰할 수 있고 효율적인 범용 웹 에이전트

요약

핵심 포인트

댓글