Distributionally-Robust Learning to Optimize
요약
본 논문은 볼록 최적화의 1차 방법(first-order methods)에 대한 하이퍼파라미터 학습을 위해 분포적 견고성 접근법을 제안합니다. 이 프레임워크는 문제 인스턴스 데이터셋에서 알고리즘 파라미터 공간의 Wasserstein 거리를 최소화하여 성능 추정 문제(PEP)를 해결하며, 견고성 반지름 변화에 따라 고전적인 학습 to 최적화(L2O)와 최악의 경우 최적 알고리즘 설계를 모두 포괄합니다. 실험 결과, 제약 조건이 없는 이차 최소화, LASSO 등 다양한 벤치마크에서 본 방법은 검증 가능한 견고성을 유지하면서도 강력한 out-of-sample 성능을 입증했습니다.
핵심 포인트
- 볼록 최적화의 하이퍼파라미터 학습에 분포적 견고성(Distributionally Robust) 접근법 적용.
- Wasserstein 거리를 사용하여 알고리즘 파라미터 공간에서 성능 추정 문제(PEP)를 최소화함.
- 제안된 프레임워크는 기존 L2O 방법과 최악의 경우 최적 설계 방식을 모두 포괄하는 유연성을 가짐.
- 이론적으로, 학습된 알고리즘은 실제 리스크가 in-sample L2O 최적보다 크거나 같으며, PEP 바운드와 비교하여 우수한 성능을 보장함.
우리는 볼록 최적화 (convex optimization) 의 첫 번째 순 방법 (first-order methods) 에 대한 하이퍼파라미터 학습을 위한 분포적 견고성 (distributionally robust) 접근법을 제안합니다. 문제 인스턴스 데이터셋이 주어졌을 때, 우리는 알고리즘 파라미터 (예: 스텝 사이즈 등) 상에서 성능 추정 문제 (PEP) 의 Wasserstein 분포적 견고성 버전 (Wasserstein distributionally robust version) 을 최소화합니다. 우리의 프레임워크는 두 극단을 통합합니다: 견고성 반지름 (robustness radius) 이 소멸하면 고전적인 학습 to optimize (L2O) 를 회복하며, 커지면 PEP 를 통한 최악의 경우 최적 알고리즘 설계 (worst-case optimal algorithm design via PEP) 를 회복합니다. 우리는 각 단계에서 inner semidefinite program 의 해를 통해 미분하는 stochastic gradient descent 로 결과를 해결합니다. 우리는 학습된 알고리즘의 실제 리스크 (true risk) 가 in-sample L2O optimum 보다 크거나 같으며, 샘플 수에 따라 줄어드는 slack 을 더하며, 최악의 경우 PEP bound 보다 나쁘지 않음을 보여주는 확률적 상한 (high-probability bounds) 을 증명합니다. 제약 조건이 없는 이차 최소화 (unconstrained quadratic minimization), LASSO, 선형 프로그래밍 벤치마크에서 우리의 학습된 알고리즘은 검증 가능한 견고성 (certifiable robustness) 과 함께 강력한 out-of-sample 성능을 달성하며, 최악의 경우 최적과 vanilla L2O 베이스라인보다 우월합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기