arXiv논문2026. 05. 14. 04:04

다양한 전문가가 존재하는 환경에서의 온라인 학습-위임 (Online Learning-to-Defer)

요약

본 논문은 배치 설정에 국한되었던 기존의 학습-위임(Learning-to-Defer) 방식을 스트리밍 데이터와 변화하는 전문가 환경으로 확장한 최초의 온라인 L2D 알고리즘을 제안합니다. 밴딧 피드백과 동적인 전문가 풀을 고려한 다중 클래스 분류 모델을 통해, 전문가의 가용성과 분포가 변하는 실제 배포 환경에서도 안정적인 성능을 보장합니다.

핵심 포인트

스트리밍 데이터 및 변화하는 전문가 가용성을 처리하는 최초의 온라인 L2D 알고리즘 소개
밴딧 피드백(bandit feedback)과 동적 전문가 풀을 활용한 다중 클래스 분류 프레임워크 제안
일반적인 상황에서 $O((n+n_e)T^{2/3})$의 후회(regret) 보장 및 저노이즈 조건에서 $O((n+n_e)\sqrt{T})$ 달성
$\mathcal{H}$-일관성 경계와 온라인 볼록 최적화의 1차 방법론을 결합한 이론적 분석 제공
실험을 통해 전문가의 신뢰성이 변하는 환경에서의 효과적인 확장성 입증

학습-위임 (Learning-to-Defer, L2D) 방식은 각 쿼리를 예측 모델 또는 외부 전문가에게 전달합니다. 기존 연구들은 이 문제를 배치 (batch) 설정에서 다루고 있지만, 실제 배포 환경에서는 스트리밍 데이터 (streaming data), 변화하는 전문가 가용성, 그리고 변화하는 전문가 분포를 처리해야 합니다. 본 논문에서는 밴딧 피드백 (bandit feedback)과 동적으로 변화하는 전문가 풀 (pool of experts)을 가진 다중 클래스 분류 (multiclass classification)를 위한 최초의 온라인 L2D 알고리즘을 소개합니다. 우리의 방법은 일반적인 상황에서 $O((n+n_e)T^{2/3})$의 후회 (regret) 보장을 달성하며, 저노이즈 (low-noise) 조건 하에서는 $O((n+n_e)\sqrt{T})$를 달성합니다. 여기서 $T$는 시간 지평 (time horizon), $n$은 레이블 (labels)의 수, $n_e$는 라운드 전반에 걸쳐 관찰된 서로 다른 전문가의 수입니다. 분석은 온라인 프레임워크 (online framework)를 위한 새로운 $\mathcal{H}$-일관성 ($\mathcal{H}$-consistency) 경계와 온라인 볼록 최적화 (online convex optimization)를 위한 1차 방법론 (first-order methods)을 결합하여 구축되었습니다. 합성 (synthetic) 데이터셋 및 실제 데이터셋에 대한 실험을 통해, 우리의 접근 방식이 표준적인 학습-위임 (Learning-to-Defer)을 전문가의 가용성과 신뢰성이 변화하는 설정으로 효과적으로 확장함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

다양한 전문가가 존재하는 환경에서의 온라인 학습-위임 (Online Learning-to-Defer)

요약

핵심 포인트

댓글