SOLAR-RL: 반 온라인 장기horizon 할당 강화학습
요약
본 논문은 복잡하고 동적인 GUI 환경에서 MLLM 에이전트를 훈련하는 새로운 강화학습 프레임워크인 SOLAR-RL을 제안합니다. 기존의 오프라인 RL은 전역 궤적 의미론을 놓치고, 온라인 RL은 높은 상호작용 비용과 불안정성을 가집니다. SOLAR-RL은 이 간극을 해소하기 위해, 고비용의 온라인 상호작용에만 의존하지 않고도 정적 데이터에서 전역 궤적 통찰력을 오프라인 학습 과정에 통합하여 장기적인 실행 품질을 효과적으로 시뮬레이션합니다.
핵심 포인트
- GUI 에이전트가 복잡한 탐색으로 진화함에 따라, MLLM 훈련에 강화학습(RL)이 중요해지고 있습니다.
- SOLAR-RL은 오프라인 RL의 전역 궤적 의미론 부족 문제와 온라인 RL의 높은 비용/불안정성 문제를 동시에 해결합니다.
- 핵심 기법은 정적 데이터에서 다양한 롤아웃 후보를 재구성하고, 단계별 유효성 신호 및 목표 정렬된 셰이핑을 통해 궤적 수준의 실행 품질을 오프라인으로 역추적 할당하는 것입니다.
- SOLAR-RL은 상호작용 비용 없이도 온라인 피드백을 효과적으로 시뮬레이션하여, 자율 GUI 탐색에서 높은 작업 완료율과 견고성을 보여줍니다.
멀티모달 대규모 언어 모델 (MLLMs) 이 성숙해짐에 따라, GUI 에이전트는 정적 상호작용에서 복잡한 탐색으로 진화하고 있습니다. 강화학습 (RL) 은 동적인 GUI 작업에서 MLLM 에이전트를 훈련하는 유망한 패러다임으로 부상했지만, 그 효과적인 적용은 딜레마에 직면해 있습니다. 표준 오프라인 RL 은 종종 정적 단계별 데이터에 의존하여 작업 완료와 실행 품질과 같은 전역 궤적 의미론을 간과합니다. 반면, 온라인 RL 은 장기 동역학을 포착하지만 높은 상호작용 비용과 잠재적인 환경 불안정성에 시달립니다. 이 격차를 해소하기 위해 우리는 SOLAR-RL (Semi-Online Long-horizon Assignment Reinforcement Learning) 을 제안합니다. 고비용인 온라인 상호작용에만 의존하지 않고, 우리의 프레임워크는 전역 궤적 통찰력을 오프라인 학습 과정에 직접 통합합니다. 구체적으로, 우리는 정적 데이터에서 다양한 롤아웃 후보를 재구성하고, 단계별 유효성 신호를 사용하여 첫 번째 실패 지점을 감지하며, 목표 정렬된 셰이핑을 통해 밀도 높은 단계별 보상을 역추적 할당하여 궤적 수준의 실행 품질을 반영합니다. 이는 상호작용 비용 없이 온라인 피드백을 효과적으로 시뮬레이션합니다. 광범위한 실험 결과, SOLAR-RL 은 강력한 베이스라인에 비해 장기horizon 작업 완료율과 견고성을 현저히 향상시켜 자율 GUI 탐색을 위한 샘플 효율적인 솔루션을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기