DT²: 의사결정 타겟형 디지털 트윈 (Decision-Targeted Digital Twins)
요약
기존 머신러닝 기반 디지털 트윈(DT)이 의사결정 최적화에 취약한 문제를 해결하기 위한 새로운 학습 패러다임 DT²를 제안합니다. DT²는 정책 순위를 보존하는 롤아웃을 생성하도록 학습하여 의사결정 후회를 줄이고 정책 선택의 정확도를 높입니다.
핵심 포인트
- 기존 DT의 1단계 전이 오차 최소화 방식이 정책 순위 산정에 부적합함을 증명
- 의사결정 타겟형 학습 패러다임인 DT² 방법론 소개
- Fitted Q-evaluation을 통한 후보 정책 가치 추정 및 쌍별 정책 순위 보존
- 기존 방식 대비 정책 선택 과정에서의 의사결정 후회(Decision regret) 감소
디지털 트윈 (Digital Twin, DT)은 다양한 정책 (Policy)에 의해 유도되는 시나리오를 시뮬레이션함으로써 의사결정을 도울 수 있는 실제 세계 시스템의 가상 모델입니다. 그러나 전형적인 머신러닝 기반의 DT는 이러한 사용 사례에 최적화되어 있지 않습니다. 본 연구에서는 모델 용량 (Model Capacity)이 제한적일 때, 1단계 전이 오차 (One-step transition errors)를 최소화하도록 DT를 학습시키는 것이 보상 함수 (Reward function)에 따른 정책 집합의 순위를 매기는 데 있어 차선 (Suboptimal)의 모델을 생성할 수 있음을 증명합니다. 나아가 우리는 이것이 표현력이 풍부한 모델 클래스 (Model classes)를 사용하는 경우에도 경험적으로 성립함을 보여줍니다. 이를 해결하기 위해, 우리는 의사결정 타겟형 DT 학습 패러다임인 $\text{DT}^2$를 소개합니다. 첫째, $\text{DT}^2$는 오프라인 데이터 (Offline data)로부터 후보 정책들의 가치를 추정하기 위해 피팅된 Q-평가 (Fitted Q-evaluation)를 사용합니다. 그런 다음, 아키텍처에 구애받지 않는 손실 함수 (Loss function)를 사용하여 이러한 프록시 정답 값 (Proxy ground-truth values)으로부터 도출된 쌍별 정책 순위 (Pairwise policy rankings)를 보존하는 롤아웃 (Rollouts)을 생성하도록 DT를 학습시킵니다. 우리는 다양한 설정과 아키텍처에 걸쳐 우리 방법의 효능을 경험적으로 입증합니다. $\text{DT}^2$는 원시 시뮬레이션 충실도 (Raw simulation fidelity)를 양호한 수준으로 유지하면서, 학습 중에 사용된 정책과 보지 못한 정책(Unseen policies) 모두에 대해 기존의 DT 학습과 비교하여 정책 순위를 일관되게 개선하고 정책 선택 과정에서의 의사결정 후회 (Decision regret)를 줄입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기