arXiv논문2026. 06. 24. 10:12

자율 평가를 활용한 컴퓨터 사용 에이전트를 위한 강화학습 (Reinforcement Learning)

요약

GUI 환경에서 컴퓨터 사용 에이전트(CUA)를 학습시키기 위해 자율 시각-언어 평가를 활용한 강화학습 프레임워크를 제안합니다. VLM을 통해 보상 신호를 생성하고, 평가기의 노이즈를 교정하여 정책 최적화 성능을 높였습니다.

핵심 포인트

GUI 환경의 보상 신호 부재 문제를 자율 시각-언어 평가로 해결
VLM을 활용해 수동 라벨 없이 작업 완료 여부를 판단하는 RL 프레임워크 제안
평가기의 노이즈를 모델링하여 PPO를 위한 노이즈 교정 보상 추정기 도입
OSWorld 등 다양한 벤치마크에서 제로샷 대비 성공률 12.6%p 향상

컴퓨터 사용 에이전트 (Computer-Use Agents, CUAs)는 그래픽 사용자 인터페이스 (Graphical User Interfaces, GUI) 내에서 직접 인지하고 행동함으로써 상위 수준의 사용자 목표를 실행합니다. 그러나 개방형 데스크톱 환경은 확장 가능하고 기계가 읽을 수 있는 보상 신호 (reward signals)를 거의 제공하지 않기 때문에, CUA를 위한 강화학습 (Reinforcement Learning, RL)은 여전히 어렵습니다. 작업 성공 여부는 종종 시각적으로 근거하며, 수작업으로 만든 보상 함수 (reward functions)나 조밀한 수동 라벨 (manual labels)로 지정하기 어렵기 때문입니다. 우리는 GUI 에이전트를 위한 확장 가능한 감독 신호로서 자율 시각-언어 평가 (autonomous vision-language evaluation)를 사용하는 RL 미세 조정 (fine-tuning) 프레임워크를 제안합니다. 최종 스크린샷과 원래의 지시 사항이 주어지면, 시각-언어 모델 (Vision-Language Model, VLM)이 작업 완료 여부를 판단하고, 정책 최적화 (policy optimization) 과정에서 작업별 휴리스틱 (heuristics)이나 수동 라벨 없이 최종 피드백을 제공합니다. 자율 평가기는 불완전하기 때문에, 우리는 그들의 피드백을 노이즈가 있는 이진 보상 채널 (noisy binary reward channel)로 모델링하고 근사 정책 최적화 (Proximal Policy Optimization, PPO)를 위한 노이즈 교정 보상 추정기 (noise-corrected reward estimator)를 도출합니다. macOSWorld, Windows Agent Arena, 그리고 OSWorld에 걸친 실험 결과, 교정된 평가기 보상이 제로샷 (zero-shot) 베이스라인과 가공되지 않은(raw) 평가기 보상 모두보다 성능이 우수함을 보여주었습니다. 이는 제로샷 성능 대비 평균 12.6%포인트, 가공되지 않은 평가기 미세 조정 대비 5.1%포인트의 성공률 향상을 가져왔습니다. 이러한 결과는 평가기 노이즈를 명시적으로 모델링하고 교정할 때, 자율 평가가 GUI 환경에서의 RL을 위한 실용적인 보상 신호로 기능할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

자율 평가를 활용한 컴퓨터 사용 에이전트를 위한 강화학습 (Reinforcement Learning)

요약

핵심 포인트

댓글