arXiv논문2026. 06. 02. 11:47

OpenWebRL: 시각적 웹 에이전트를 위한 온라인 멀티턴 강화학습 (Online Multi-turn Reinforcement

요약

OpenWebRL은 실제 웹사이트 환경에서 온라인 멀티턴 강화학습을 통해 시각적 웹 에이전트를 학습시키는 오픈 프레임워크입니다. 소량의 데이터만으로도 기존 오픈 소스 모델을 능가하며, OpenAI 및 Gemini와 같은 폐쇄적 시스템과 경쟁할 만한 성능을 보여줍니다.

핵심 포인트

실제 라이브 브라우저 기반의 온라인 강화학습 파이프라인 구축
소량의 초기 데이터로 높은 성공률을 달성하는 효율적 학습 방식
OpenWebRL-4B 모델의 SOTA 성능 입증
학습 데이터, 모델 및 코드 공개 예정

유능한 시각적 웹 에이전트 (visual web agents)를 구축하려면 장기적 추론 (long-horizon reasoning), 정밀한 그라운딩 (precise grounding), 그리고 역동적인 실제 웹사이트와의 견고한 상호작용이 필요합니다. 급격한 발전에도 불구하고, 가장 강력한 시스템들은 여전히 대부분 폐쇄적 (proprietary)이며, 오픈 에이전트들은 여전히 정제된 웹 궤적 (web trajectories)의 대규모 컬렉션에 대한 지도식 사후 학습 (supervised post-training)에 크게 의존하고 있습니다. 이러한 의존성은 주요한 확장성 병목 현상 (scalability bottleneck)을 야기합니다. 즉, 고품질의 시연 (demonstrations)을 수집하는 데 비용이 많이 들며, 정적 데이터셋은 다양하고 끊임없이 변화하는 오픈 웹 (open web)에 대해 제한적인 커버리지만을 제공하기 때문입니다. 온라인 강화학습 (online RL)이 텍스트 기반 에이전트에서는 가능성을 보여주었지만, 실제 라이브 웹사이트에서 시각적 웹 에이전트를 직접 학습시키는 데 있어 그 잠재력은 여전히 미개척 상태로 남아 있습니다.

본 논문에서 우리는 실제 웹사이트에서 온라인 멀티턴 강화학습 (online multi-turn RL)을 통해 시각적 웹 에이전트를 학습시키기 위한 오픈 프레임워크인 OpenWebRL을 소개합니다. OpenWebRL은 확장 가능한 라이브 브라우저 인프라 (live-browser infrastructure), 지도식 초기화 (supervised initialization), 멀티모달 컨텍스트 관리 (multimodal context management), 궤적 수준의 성공 판정 (trajectory-level success judging), 그리고 효율적인 멀티턴 정책 최적화 (multi-turn policy optimization)를 포함한 전체 학습 파이프라인을 다룹니다. 이 프레임워크를 사용하여 우리는 OpenWebRL-4B를 학습시켰으며, 이는 까다로운 라이브 웹 벤치마크에서 새로운 오픈 소스 최첨단 (state of the art) 성능을 수립했습니다. 단 0.4K의 초기화 궤적과 2.2K의 개방형 강화학습 (RL) 학습 태스크만으로, OpenWebRL-4B는 Online-Mind2Web에서 67.0%, DeepShop에서 64.0%의 성공률을 달성하여, 유사하거나 더 큰 규모의 기존 오픈 에이전트들을 능가하였으며 OpenAI CUA 및 Gemini CUA를 포함한 폐쇄적 시스템들과도 경쟁할 만한 수준을 보여주었습니다.

강력한 벤치마크 성능을 넘어, 우리는 온라인 강화학습 (online RL)이 시각적 웹 에이전트에게 효과적으로 작용하게 만드는 핵심 설계 선택 사항들을 체계적으로 연구하고, 강화학습 (RL)이 에이전트 추론 (agentic reasoning)을 어떻게 개선하는지 분석합니다. 전반적으로, 우리의 연구는 더 유능하고, 재현 가능하며, 비용 효율적인 오픈 웹 에이전트를 구축하기 위한 실질적인 경로를 제공합니다. 우리는 향후 연구를 지원하기 위해 학습 데이터, 모델 및 코드를 공개할 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

OpenWebRL: 시각적 웹 에이전트를 위한 온라인 멀티턴 강화학습 (Online Multi-turn Reinforcement

요약

핵심 포인트

댓글