적응하는 법 배우기: 인지 인식 탐색을 통한 자기 개선형 웹 에이전트
요약
SCALE은 MLLM 기반 웹 에이전트의 적응성을 높이기 위해 제안된 자율 학습 프레임워크입니다. Selector, Predictor, Judger라는 세 가지 역할을 통해 에이전트의 한계를 스스로 탐색하고, SCALE-Hop 전략으로 효율적인 경로를 계획합니다.
핵심 포인트
- 적대적 역할을 활용한 자율적 인지 경계 확장
- 지역적 탐색 함정을 피하는 SCALE-Hop 그래프 전략
- 19개 웹사이트 기반의 대규모 SCALE-20k 데이터셋 구축
- 다양한 MLLM의 웹 환경 일반화 성능 향상
멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)의 최근 발전은 웹 에이전트 (web agents) 분야에서 유망한 진전을 이끌어냈습니다. 그러나 기존의 웹 에이전트들은 종종 수작업으로 제작된 실행 파이프라인 (execution pipelines)이나 비용이 많이 드는 전문가 궤적 (expert trajectories)에 의존하며, 이는 복잡하고 역동적인 환경에 대한 적응성을 제한합니다. 이러한 과제를 해결하기 위해, 우리는 Selector, Predictor, Judger라는 세 가지 적대적 역할 (adversarial roles)을 활용하여 에이전트의 한계를 자율적으로 발견하고 환경 탐색을 통해 인지적 경계를 확장하는 SCALE (Self-Cognitive-Aware Learning and Exploration)을 제안합니다. 또한, 전역적 계획 (global planning)을 용이하게 하고 에이전트가 지역적 탐색 함정 (local exploration traps)을 피하도록 돕는 그래프 탐색 전략인 SCALE-Hop을 제안합니다. 학습을 더욱 지원하기 위해, 우리는 19개의 실제 웹사이트에서 수집된 대규모 데이터셋인 SCALE-20k를 구축하였으며, 여기에는 다양한 작업 유형과 SCALE의 탐색 흔적 (exploration traces)으로부터 생성된 구조화된 시연 (structured demonstrations)이 포함되어 있습니다. 실험 결과에 따르면, 우리의 접근 방식은 다양한 웹 환경에서 여러 MLLM의 성능과 일반화 (generalization) 능력을 크게 향상시킵니다. 우리의 프레임워크는 진정으로 자율적이고 적응력 있는 웹 에이전트를 구축하기 위한 확장 가능하고 일반화 가능한 솔루션을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기