본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 17:01

SNAPO: Smooth Neural Adjoint Policy Optimization for Optimal Control via

요약

SNAPO(Smooth Neural Adjoint Policy Optimization)는 불확실성 하의 순차적 결정을 다루는 최적 제어 문제 해결을 위한 새로운 프레임워크입니다. 이 방법은 알려진 미분 가능한 시뮬레이터 내에 신경 정책을 통합하고, 딱딱한 제약을 부드러운 근사로 대체합니다. 가장 큰 특징은 단일 adjoint pass를 통해 모든 정책 매개변수와 입력에 대한 목적 함수의 정확한 기울기를 계산하여, 효율적이고 확장성 높은 최적화가 가능하다는 점입니다.

핵심 포인트

  • SNAPO는 불확실성 하의 순차적 의사결정(최적 제어) 문제를 해결하는 프레임워크이다.
  • 신경 정책을 미분 가능한 시뮬레이터에 내장하고, 딱딱한 제약을 부드러운 근사로 처리한다.
  • 단일 adjoint pass를 사용하여 모든 정책 매개변수와 입력에 대한 목적 함수의 정확한 기울기를 계산할 수 있다.
  • 천연가스 저장, 연금 자산부채 관리, 화학 제조 등 세 가지 도메인에서 높은 효율성과 확장성을 입증했다.

많은 실제 세계의 문제는 불확실성 하에서 순차적인 결정을 요구합니다: 저장소에서 가스를 주입하거나 인출할 때, 매월 연금 포트폴리오를 어떻게 재균형할지, 제약 산업 반응기 체인을 통해 어떤 온도 프로파일을 실행할지. 동적 프로그래밍은 작은 인스턴스를 정확히 해결하지만 상태 차원에서 지수적으로 확장됩니다. 블랙박스 강화학습은 고차원 상태를 처리하지만 훈련이 느리고 민감도를 생성하지 않습니다. 우리는 SNAPO (Smooth Neural Adjoint Policy Optimization) 를 소개합니다: 알려진, 미분 가능한 시뮬레이터 안에 신경 정책 (neural policy) 을 내장하고, 딱딱한 제약을 매끄러운 근사로 대체하며, 단일 adjoint pass 에서 모든 정책 파라미터와 모든 입력에 대한 목적 함수의 정확한 기울기를 계산하는 프레임워크입니다. 우리는 SNAPO 를 세 가지 도메인에서 증명합니다: 천연가스 저장 (1 분 미만 훈련, 민감도당 추가 비용 없이 365 개의 포워드 곡선 민감도), 연금 자산부채 관리 (bump-and-revalue 대비 6.5x-200x 민감도 속도 향상, 위험 인자 수와 함께 확장), 제약 제조 (4 단위 프로세스 체인을 통한 교차 단위 민감도, 74.5 밀리초에 5 개의 adjoint pass 에서 20 개의 ICH Q8 규제 민감도). 모든 민감도는 정책을 훈련하는 동일한 역방향 pass 로 생성되며, 계산된 민감도의 수와 무관하게 하나의 역방향 pass 의 비용에 비례합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0