Lyapunov-Guided Self-Alignment: 오프라인 안전 강화학습을 위한 테스트 타임 어댑테이션
요약
본 논문은 오프라인 강화학습(Offline RL) 에이전트가 학습 데이터와 실제 환경 간의 차이로 인해 발생할 수 있는 안전 문제를 해결하기 위한 프레임워크인 SAS(Self-Alignment for Safety)를 제안합니다. SAS는 재학습 없이 테스트 타임 어댑테이션을 가능하게 하며, 핵심 메커니즘으로 자기 정렬(self-alignment)을 사용합니다. 이는 에이전트가 중립 함수(Lyapunov condition)를 만족하는 가상의 궤적을 생성하고 이를 컨텍스트 인프롬프트로 활용하여 안전성을 확보하면서도 성능 저하를 최소화합니다.
핵심 포인트
- 오프라인 RL의 주요 문제점인 데이터셋과 실제 환경 간의 괴리(Sim-to-Real Gap) 문제를 해결하는 데 초점을 맞춤.
- SAS 프레임워크는 재학습 없이 테스트 타임 어댑테이션을 가능하게 하는 트랜스포머 기반 접근 방식을 사용함.
- 자기 정렬(self-alignment) 메커니즘은 Lyapunov 조건을 만족하는 가상 궤적을 생성하고 이를 컨텍스트 인프롬프트로 활용하여 안전성을 확보함.
- 이 방법론은 에이전트가 파라미터 업데이트 없이도 행동을 안전하게 재정렬할 수 있도록 함으로써 제어 불변성(control-invariant)을 유지함.
오프라인 강화학습 (Offline Reinforcement Learning, RL) 에이전트는 학습 데이터셋과 실제 환경 간의 차이로 인해 배포 시 안전하지 않은 행동을 보일 수 있어 실패하는 경우가 많습니다. 이를 해결하기 위해 우리는 재학습 없이 오프라인 안전 RL 에서 테스트 타임 어댑테이션 (Test-Time Adaptation) 을 가능하게 하는 트랜스포머 기반 프레임워크인 SAS(Self-Alignment for Safety) 를 제안합니다. SAS 에서의 주요 메커니즘은 자기 정렬 (self-alignment) 입니다: 테스트 시간에는 사전 학습된 에이전트가 여러 가상의 궤적 (imagined trajectories) 을 생성하고, 이를 중립 함수 (Lyapunov condition) 를 만족하는지 선택합니다. 이러한 실현 가능한 세그먼트는 컨텍스트 인프롬프트 (in-context prompts) 로 재사용되어, 에이전트가 파라미터 업데이트를 피하면서도 안전을 향해 행동을 재정렬할 수 있게 합니다. 결과적으로 SAS 는 Lyapunov 기반 상상력을 제어 불변성 (control-invariant) 프롬프트로 전환하며, 트랜스포머 아키텍처는 잠재적 스킬 (latent skills) 에 대한 베이지안 추론 (Bayesian inference) 으로 작동하는 계층적 RL 해석을 허용합니다. Safety Gymnasium 과 MuJoCo 벤치마크에서 SAS 는 비용과 실패를 일관되게 줄이면서 반환 (return) 을 유지하거나 개선합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기