매끄러운 안전 구조화된 정책 구성을 통한 안전한 온라인 학습

안전한 온라인 강화학습 (Reinforcement Learning)은 매끄러운 최적화 역학 (optimization dynamics)을 유지하면서도 정책이 안전 제약 조건 (safety constraints)을 준수할 것을 요구합니다. 기존의 접근 방식은 일반적으로 시스템 상호작용 및 학습에 불연속성 (discontinuities)을 초래하는 행동 개입 (action interventions)을 통한 엄격한 안전 집행 (strict safety enforcement)에 의존하거나, 매끄러운 학습은 보존하지만 제한된 안전 보장을 제공하는 소프트 안전 제약 (soft safety constraint) 공식화에 의존합니다. 우리는 구조화된 안전 모니터링 및 개입을 행동 생성 과정에 직접 통합하는 안전 인지 정책 아키텍처 (safety-aware policy architecture)인 AutoSafe를 제안합니다. 이러한 설계는 성능 중심 행동과 안전 보존 행동 사이의 매끄럽고 위험 의존적인 전이를 가능하게 하여, 연속적인 온라인 상호작용 및 학습 역학을 결과로 도출합니다. 다양한 연속 제어 (continuous-control) 벤치마크에 대한 실증적 결과는 학습의 매끄러움을 희생하지 않으면서도 강력한 안전 집행을 입증합니다. 나아가 우리는 물리적인 카트-폴 (cart-pole) 시스템에서 AutoSafe를 검증하여, 실제 환경에서의 안전한 온라인 학습을 위한 실질적인 효과를 강조합니다.

Insights

매끄러운 안전 구조화된 정책 구성을 통한 안전한 온라인 학습

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들