본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 24. 11:10

창고 SLAM 처리량 제어를 위한 오프라인 강화학습 (Offline Reinforcement Learning)

요약

창고 풀필먼트 환경에서 SLAM 처리량을 최적화하기 위한 오프라인 강화학습(Offline RL) 프레임워크를 제안합니다. 시스템 혼잡도와 운영 효율성 사이의 균형을 맞추기 위해 지능적인 스로틀링 조정을 수행하며, 과거 운영 로그를 활용해 학습합니다.

핵심 포인트

  • 오프라인 RL을 활용한 창고 SLAM 처리량 제어 프레임워크 제시
  • 상태 표현, 액션 공간 추상화, 보상 함수 설계 포함
  • 알고리즘 불가지론적 아키텍처로 다양한 RL 방법론 통합 가능
  • CQL 정책 사용 시 시스템 상태 22.97% 개선 효과 입증

우리는 창고 풀필먼트 (fulfillment) 환경에서 SLAM 처리량 제어를 최적화하기 위한 오프라인 강화학습 (Offline Reinforcement Learning, RL) 프레임워크를 제시합니다. SLAM (Scan/Label/Apply/Manifest) 처리량은 시스템 혼잡도와 운영 효율성에 직접적인 영향을 미칩니다. 우리의 RL 기반 제어 방식은 스로틀링 (throttling) 동작의 지능적인 조정을 통해, 처리량 극대화와 다운스트림 (downstream) 안정성 사이의 균형을 적응적으로 맞추는 SLAM 처리량 설정을 동적으로 권장합니다. 우리는 이력 정보가 포함된 상태 표현 (state representation), 지연된 영향 제어를 위한 액션 공간 추상화 (action space abstraction), 그리고 업스트림 (upstream) 및 다운스트림 운영 지표를 모두 포착하는 보상 함수 (reward function)를 포함합니다. 우리의 접근 방식은 알고리즘 불가지론적 (algorithm-agnostic)이어서, 통일된 아키텍처 하에 여러 오프라인 RL 방법론을 통합할 수 있습니다. 우리는 세 가지 최첨단 오프라인 RL 알고리즘으로 프레임워크를 구현하였으며, 대규모 창고의 비식별화된 과거 운영 로그를 사용하여 모델을 오프라인으로 학습시켰습니다. 정책 성능은 종합적인 다중 방법론 전략을 사용하여 평가되었습니다. 여기에는 회귀 모델을 통한 즉각적 보상 추정 및 장기적 Fitted Q Evaluation (FQE)을 포함하는 모델 프리 (model-free) 접근 방식과, 모델 기반 (model-based) Deep Koopman 역학 평가가 포함됩니다. 실증적 결과에 따르면 CQL 정책이 대안들보다 일관되게 우수한 성능을 보였으며, 시스템 상태를 22.97% 개선하고 평균 스로틀링 지속 시간을 3.18% 단축했습니다. 이러한 결과는 안전하고 확장 가능한 창고 처리량 제어 최적화를 위한 오프라인 RL의 잠재력을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0