arXiv논문2026. 05. 22. 12:55

무작위 작업 도착이 발생하는 유연한 작업 숍 스케줄링을 위한 심층 강화학습 (Deep Reinforcement Learning)

요약

무작위 작업 도착이 발생하는 유연한 작업 숍 스케줄링(FJSP) 문제를 해결하기 위해 이벤트 기반 심층 강화학습(DRL) 접근 방식을 제안합니다. PPO 알고리즘과 MLP를 활용하여 총 완료 시간을 최소화하며, 기존 디스패칭 규칙 및 MILP 솔루션보다 우수한 성능을 입증했습니다.

핵심 포인트

PPO 알고리즘과 MLP를 활용한 DRL 에이전트 설계
무작위 작업 도착 및 조합론적 복잡성 문제 해결
기존 디스패칭 규칙 대비 우수한 스케줄링 성능 달성
이질적인 데이터셋 환경에서 MILP 솔루션보다 높은 효율성

유연한 작업 숍 스케줄링 문제 (Flexible Job Shop Scheduling Problem, FJSP)는 일련의 작업들을 기계에 최적으로 할당하는 문제입니다. FJSP에는 두 가지 주요 과제가 지속적으로 존재합니다: 미래 작업의 예측 불가능한 도착과 문제의 조합론적 복잡성(combinatorial complexity)이며, 이로 인해 기존의 혼합 정수 선형 계획법 (mixed-integer linear programming) 솔버로는 해결하기가 어렵습니다. 본 논문은 무작위 작업 도착이 발생하는 FJSP를 해결하기 위해 이벤트 기반의 심층 강화학습 (Deep Reinforcement Learning, DRL) 접근 방식을 제안합니다. 구체적으로, 우리는 Proximal Policy Optimization (PPO) 알고리즘을 채택하고 경량 멀티 레이어 퍼셉트론 (Multi-Layer Perceptrons, MLP)을 사용하여 모든 작업의 총 완료 시간 (total completion time)을 최소화하도록 DRL 에이전트를 학습시킵니다. 우리는 상태 표현 (state representation)이 환경으로부터 직접 접근 가능하도록 설계하였으며, 학습 에이전트가 잘 확립된 일련의 디스패칭 규칙 (dispatching rules) 중에서 선택하도록 제한하였습니다. 시뮬레이션 결과, 우리의 DRL 접근 방식은 다양한 이질성 (heterogeneity)과 작업 도착률을 가진 데이터셋에서 개별 디스패칭 규칙들보다 우수한 성능을 보였습니다. 우리는 우리의 DRL을 도착 트리거형 혼합 정수 선형 계획법 (arrival-triggered mixed-integer linear programming) 솔루션과 비교 분석하였으며, 특히 데이터셋이 이질적일 때 우리의 방법이 우수한 성능을 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

무작위 작업 도착이 발생하는 유연한 작업 숍 스케줄링을 위한 심층 강화학습 (Deep Reinforcement Learning)

요약

핵심 포인트

댓글