이벤트 기반 강화학습 (Event-Driven Reinforcement Learning)을 통한 반도체 제조 공정의 장기 제어
요약
반도체 제조 공정의 복잡한 의사결정을 최적화하기 위해 이벤트 기반 강화학습(Event-Driven RL) 프레임워크를 제안합니다. 이 모델은 이산적 이벤트를 기반으로 시스템을 정식화하여 지연된 피드백과 장기적 요구 사항 문제를 해결합니다.
핵심 포인트
- 이벤트 기반 시간차(TD) 정식화를 통한 복잡한 제조 공정 제어
- 중앙 집중형 에이전트를 활용한 다목적 정책 최적화 구현
- 시뮬레이션 결과 처리량 및 가동률 측면에서 유의미한 성능 향상 입증
- 오프라인 및 온라인 설정 모두에서 높은 확장성과 범용성 확인
강화학습 (Reinforcement learning)은 대규모 시스템에서의 순차적 의사결정을 최적화할 것을 약속합니다. 반도체 제조 시스템은 이질적인 웨이퍼 (wafers)가 광범위한 장비 네트워크를 통해 수백 개의 공정 단계를 거치는 확률적이고 매우 제약이 많은 환경입니다. 이러한 특성은 지연된 피드백 (delayed feedback)과 장기적 요구 사항 (long-horizon requirements)을 가진 복잡하고 고차원적인 의사결정 문제를 야기하며, 생산 계획 및 제어를 어렵게 만듭니다. 본 연구에서는 이러한 규모에서의 다목적 정책 최적화 (multi-objective policy optimization)를 위한 심층 강화학습 (deep reinforcement learning) 프레임워크를 제안합니다. 구체적으로, 우리는 제어를 중앙 집중형 에이전트 (centralized-agent) 문제로 정식화하며, 여기서 핵심 정책 (core policy)은 시스템 전반의 의사결정을 조정하고, 시스템의 진화는 이산적 이벤트 (discrete events)에 의해 구동되는 상호 연결된 시간적 과정 (interconnected temporal process)으로 표현됩니다. 이에 따라, 우리는 일반성을 유지하면서 관련 학습 설정 하에서 다양한 정책 최적화 방법론과 통합될 수 있는 맞춤형 이벤트 기반 시간차 (event-driven temporal-difference) 정식화를 개발합니다. 우리는 이 프레임워크에 통합된 여러 핵심 모델 프리 (model-free) 알고리즘을 조사하고, 다양한 산업 실제 운영 시나리오를 반영한 고충실도 시뮬레이션 (high-fidelity simulations)을 사용하여 그 효과를 평가합니다. 광범위한 검증 실험을 통해, 오프라인 (offline) 및 온라인 (online) 설정 모두에서 학습된 에이전트들은 처리량 (throughput)과 가동률 (utilization) 측면에서 유의미하고 일관된 이득을 보여주었습니다. 나아가 우리는 학습 단계 전반에 걸쳐 성능과 일반화 (generalization) 능력을 평가하여, 대안적인 강화학습 정식화 및 알고리즘들의 상대적 강점을 명확히 합니다. 종합적으로, 본 결과는 이벤트 기반 복잡 적응계 (event-driven complex adaptive systems)를 제어하기 위한 제안된 프레임워크의 확장성 (scalability), 범용성 (generality), 그리고 전이 가능성 (transferability)을 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기