본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 09. 11:53

AliyunConsoleAgent: 증류(Distillation) 및 강화학습(Reinforcement Learning)을 통한 실제 클라우드

요약

AliyunConsoleAgent는 클라우드 콘솔 문서와 UI의 일치 여부를 검증하기 위한 웹 에이전트 프레임워크입니다. 증류된 모델의 SFT와 GRPO 기반 강화학습을 결합하여, 독점 모델 수준의 성능을 유지하면서도 추론 비용을 92% 절감했습니다.

핵심 포인트

  • SFT와 GRPO를 결합한 2단계 학습 패러다임 제안
  • Terraform 기반의 고결정론적 롤아웃 시스템 구축
  • 독점 모델 대비 성능 격차를 1.82%p로 최소화
  • 추론 비용을 기존 대비 92% 대폭 절감

우리는 실제 클라우드 콘솔(Cloud Console)에서 자동화된 문서 검증을 위한 웹 에이전트 프레임워크인 AliyunConsoleAgent를 선보입니다. 주요 클라우드 플랫폼은 수백 개의 제품을 포함하며 기능이 빠르게 반복적으로 업데이트되는데, 이로 인해 콘솔 UI가 해당 문서와 자주 일치하지 않는 현상이 발생합니다. 문서화된 절차가 현재의 콘솔을 정확하게 반영하고 엔드투엔드(End-to-end)로 실행 가능한지 검증하려면 연간 약 400만 회의 반복적인 점검이 필요할 것으로 추정되지만, 수동 검증 범위는 여전히 1% 미만에 머물러 있습니다. 최첨단 독점 모델(Frontier proprietary models)을 기반으로 구축된 에이전트 시스템은 높은 성공률을 달성하지만, 과도한 비용과 데이터 프라이버시 제약으로 인해 대규모 배포가 불가능합니다.

우리는 2단계 학습 패러다임을 제안합니다. 먼저 증류된 최첨단 모델의 궤적(Trajectories)을 활용한 지도 미세 조정(Supervised Fine-Tuning, SFT)을 수행한 후, 실제 클라우드 환경에서 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 및 이중 채널 결과 보상 모델(Dual-channel outcome reward model)을 사용하는 강화학습(Reinforcement Learning, RL)을 진행합니다. 대규모 RL 학습을 지원하기 위해, 우리는 Terraform 기반의 리소스 사전 프로비저닝(Pre-provisioning)과 LLM 기반의 온디맨드 프로비저닝(On-demand provisioning)을 특징으로 하는 고결정론적 롤아웃(High-determinism rollout) 시스템을 구축하였으며, 이는 환경 노이즈를 학습 신호로부터 효과적으로 격리합니다. 나아가 우리는 백엔드 감사 로그(Backend audit logs)에 기반한 규칙 기반 보상 평가 프로토콜을 도입하여, 객관적이고 보상 해킹(Reward-hacking)에 강한 결과 판단을 제공합니다.

우리의 모델은 단순한 기계적 지시 따르기에서 클라우드 콘솔 및 제품 특화 이해력을 갖춘 자율적 의사결정 단계로 진화합니다. 최첨단 모델이 단 65.34%의 성공률을 보이는 도전적인 278개 태스크 벤치마크 실험에서, AliyunConsoleAgent-32B는 63.52%의 평균 성공률을 달성했습니다. 이는 베이스 모델 대비 20.24%포인트 향상된 수치이며, 최첨단 독점 모델과의 격차를 1.82%포인트(bootstrap 95% CI [-1.27, 7.39])로 좁히는 동시에 추론 비용을 92% 낮춘 결과입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0