재생 커널 힐베르트 공간 (Reproducing Kernel Hilbert Spaces)에서의 지도 학습을 위한 서브샘플링
요약
재생 커널 힐베르트 공간(RKHS) 환경에서 비매개변수적 지도 학습을 위한 최적의 서브샘플링 체계를 연구합니다. Horvitz-Thompson 가중치를 적용한 경험적 위험 최소화 추정기의 점근적 특성을 분석하여 계산 효율성을 높이는 방법을 제안합니다.
핵심 포인트
- RKHS 기반 비매개변수적 설정에서의 서브샘플링 연구
- Horvitz-Thompson 가중치를 활용한 경험적 위험 최소화
- 공분산 연산자의 트레이스와 관련된 최적 서브샘플링 체계 규명
- 플러그인 방식을 통한 실용적인 최적화 접근법 제시
- 합성 및 실제 데이터셋을 통한 수치적 유효성 검증
빅데이터 시대에 서브샘플링 (subsampling)은 통계적 학습 (statistical learning)에서 흔한 관행이 되었습니다. 학습기가 훈련되는 대상의 하위 그룹을 선택함으로써, 서브샘플링은 추정 단계의 계산 비용과 시간을 줄이는 것을 목표로 하며, 이상적으로는 에너지 소비와 탄소 발자국 (carbon footprint)의 감소로 이어집니다. 본 연구는 가설 집합 (hypotheses set)이 재생 커널 힐베르트 공간 (reproducing kernel Hilbert space)에 있고, 추정기 (estimator)가 Horvitz-Thompson 방식에 따라 가중치가 재설정된 경험적 위험 (empirical risk)의 최소화 도구인 비매개변수적 (nonparametric) 설정에 초점을 맞춥니다. 이 추정기의 점근적 특성 (asymptotic properties)을 연구함으로써, 우리는 (공분산 연산자 (covariance operator)의 트레이스 (trace)와 관련하여) 최적의 서브샘플링 체계를 밝혀내고, 이것이 플러그인 (plug-in) 방식을 통해 사용될 수 있음을 보여줍니다. 합성 데이터셋 및 실제 데이터셋에 대한 수치적 연구는 제안된 접근 방식의 실용성과 이점을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기