AliyunConsoleAgent: 증류(Distillation) 및 강화학습(Reinforcement Learning)을 통한 실제 클라우드

우리는 실제 클라우드 콘솔(Cloud Console)에서 자동화된 문서 검증을 위한 웹 에이전트 프레임워크인 AliyunConsoleAgent를 선보입니다. 주요 클라우드 플랫폼은 수백 개의 제품을 포함하며 기능이 빠르게 반복적으로 업데이트되는데, 이로 인해 콘솔 UI가 해당 문서와 자주 일치하지 않는 현상이 발생합니다. 문서화된 절차가 현재의 콘솔을 정확하게 반영하고 엔드투엔드(End-to-end)로 실행 가능한지 검증하려면 연간 약 400만 회의 반복적인 점검이 필요할 것으로 추정되지만, 수동 검증 범위는 여전히 1% 미만에 머물러 있습니다. 최첨단 독점 모델(Frontier proprietary models)을 기반으로 구축된 에이전트 시스템은 높은 성공률을 달성하지만, 과도한 비용과 데이터 프라이버시 제약으로 인해 대규모 배포가 불가능합니다.

우리는 2단계 학습 패러다임을 제안합니다. 먼저 증류된 최첨단 모델의 궤적(Trajectories)을 활용한 지도 미세 조정(Supervised Fine-Tuning, SFT)을 수행한 후, 실제 클라우드 환경에서 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 및 이중 채널 결과 보상 모델(Dual-channel outcome reward model)을 사용하는 강화학습(Reinforcement Learning, RL)을 진행합니다. 대규모 RL 학습을 지원하기 위해, 우리는 Terraform 기반의 리소스 사전 프로비저닝(Pre-provisioning)과 LLM 기반의 온디맨드 프로비저닝(On-demand provisioning)을 특징으로 하는 고결정론적 롤아웃(High-determinism rollout) 시스템을 구축하였으며, 이는 환경 노이즈를 학습 신호로부터 효과적으로 격리합니다. 나아가 우리는 백엔드 감사 로그(Backend audit logs)에 기반한 규칙 기반 보상 평가 프로토콜을 도입하여, 객관적이고 보상 해킹(Reward-hacking)에 강한 결과 판단을 제공합니다.

우리의 모델은 단순한 기계적 지시 따르기에서 클라우드 콘솔 및 제품 특화 이해력을 갖춘 자율적 의사결정 단계로 진화합니다. 최첨단 모델이 단 65.34%의 성공률을 보이는 도전적인 278개 태스크 벤치마크 실험에서, AliyunConsoleAgent-32B는 63.52%의 평균 성공률을 달성했습니다. 이는 베이스 모델 대비 20.24%포인트 향상된 수치이며, 최첨단 독점 모델과의 격차를 1.82%포인트(bootstrap 95% CI [-1.27, 7.39])로 좁히는 동시에 추론 비용을 92% 낮춘 결과입니다.

Insights

AliyunConsoleAgent: 증류(Distillation) 및 강화학습(Reinforcement Learning)을 통한 실제 클라우드

요약

핵심 포인트

댓글

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다

@Solana에서의 AI 현황

이번 주의 AI 가격 변동: DeepSeek는 저렴해지고, Claude Sonnet 5는 비싸진다

GPT-5.6 Luna 가격이 3주 만에 80% 하락했습니다. 이것이 에이전트 스택에 초래할 수 있는 가격 책정 버그에 대해 알아보겠습니다.

7월 21일 GPT Image 테스트 이후 — 단 하나의 아름다운 프레임이 시리즈를 위한 proof-sheet을 대체할 수는 없다

@Solana에서의 AI 현황

이번 주의 AI 가격 변동: DeepSeek는 저렴해지고, Claude Sonnet 5는 비싸진다