arXiv논문2026. 04. 27. 19:07

SOLAR-RL: 반 온라인 장기horizon 할당 강화학습

요약

본 논문은 복잡하고 동적인 GUI 환경에서 MLLM 에이전트를 훈련하는 새로운 강화학습 프레임워크인 SOLAR-RL을 제안합니다. 기존의 오프라인 RL은 전역 궤적 의미론을 놓치고, 온라인 RL은 높은 상호작용 비용과 불안정성을 가집니다. SOLAR-RL은 이 간극을 해소하기 위해, 고비용의 온라인 상호작용에만 의존하지 않고도 정적 데이터에서 전역 궤적 통찰력을 오프라인 학습 과정에 통합하여 장기적인 실행 품질을 효과적으로 시뮬레이션합니다.

핵심 포인트

GUI 에이전트가 복잡한 탐색으로 진화함에 따라, MLLM 훈련에 강화학습(RL)이 중요해지고 있습니다.
SOLAR-RL은 오프라인 RL의 전역 궤적 의미론 부족 문제와 온라인 RL의 높은 비용/불안정성 문제를 동시에 해결합니다.
핵심 기법은 정적 데이터에서 다양한 롤아웃 후보를 재구성하고, 단계별 유효성 신호 및 목표 정렬된 셰이핑을 통해 궤적 수준의 실행 품질을 오프라인으로 역추적 할당하는 것입니다.
SOLAR-RL은 상호작용 비용 없이도 온라인 피드백을 효과적으로 시뮬레이션하여, 자율 GUI 탐색에서 높은 작업 완료율과 견고성을 보여줍니다.

멀티모달 대규모 언어 모델 (MLLMs) 이 성숙해짐에 따라, GUI 에이전트는 정적 상호작용에서 복잡한 탐색으로 진화하고 있습니다. 강화학습 (RL) 은 동적인 GUI 작업에서 MLLM 에이전트를 훈련하는 유망한 패러다임으로 부상했지만, 그 효과적인 적용은 딜레마에 직면해 있습니다. 표준 오프라인 RL 은 종종 정적 단계별 데이터에 의존하여 작업 완료와 실행 품질과 같은 전역 궤적 의미론을 간과합니다. 반면, 온라인 RL 은 장기 동역학을 포착하지만 높은 상호작용 비용과 잠재적인 환경 불안정성에 시달립니다. 이 격차를 해소하기 위해 우리는 SOLAR-RL (Semi-Online Long-horizon Assignment Reinforcement Learning) 을 제안합니다. 고비용인 온라인 상호작용에만 의존하지 않고, 우리의 프레임워크는 전역 궤적 통찰력을 오프라인 학습 과정에 직접 통합합니다. 구체적으로, 우리는 정적 데이터에서 다양한 롤아웃 후보를 재구성하고, 단계별 유효성 신호를 사용하여 첫 번째 실패 지점을 감지하며, 목표 정렬된 셰이핑을 통해 밀도 높은 단계별 보상을 역추적 할당하여 궤적 수준의 실행 품질을 반영합니다. 이는 상호작용 비용 없이 온라인 피드백을 효과적으로 시뮬레이션합니다. 광범위한 실험 결과, SOLAR-RL 은 강력한 베이스라인에 비해 장기horizon 작업 완료율과 견고성을 현저히 향상시켜 자율 GUI 탐색을 위한 샘플 효율적인 솔루션을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SOLAR-RL: 반 온라인 장기horizon 할당 강화학습

요약

핵심 포인트

댓글