arXiv논문2026. 05. 28. 12:37

멀티 레이블 학습 (Multi-Label Learning)에서 일반화된 지표 (Generalized Metrics) 최적화를 위한 원칙적인

요약

멀티 레이블 학습에서 F-measure와 Jaccard index 같은 복잡한 지표를 최적화하기 위한 새로운 알고리즘과 이론적 프레임워크를 제안합니다. H-일관성에 기반한 새로운 대리 손실 함수를 설계하여 비점근적 보장을 제공하며, MMO 알고리즘을 통해 대규모 데이터셋에서도 뛰어난 성능을 입증했습니다.

핵심 포인트

H-일관성 기반의 멀티 레이블 지표 최적화 프레임워크 제안
증명 가능한 경계를 가진 새로운 대리 손실 함수 설계
O(l) 시간 내에 작동하는 효율적인 MMO 알고리즘 개발
MS-COCO 등 대규모 데이터셋에서 우수한 확장성 및 성능 검증

많은 실제 분류 (classification) 작업은 인스턴스당 여러 개의 레이블을 예측해야 하며, 이에 따라 $F$-measure 및 Jaccard index와 같은 복잡한 평가 지표 (evaluation metrics)의 최적화가 필요합니다. 경험적 효용 극대화 (Empirical Utility Maximization, EUM) 프레임워크는 이러한 모집단 수준 (population-level) 지표에 자연스럽게 적용되지만, 기존의 이론적 결과들은 주로 점근적 Bayes-일관성 (asymptotic Bayes-consistency)에 국한되어 있습니다. 본 논문에서는 더 강력한 개념인 $H$-일관성 ($H$-consistency)에 기반하여, EUM 프레임워크 내에서 광범위한 클래스의 일반화된 지표를 최적화하기 위한 원칙적인 학습 알고리즘을 개발합니다. 우리의 핵심 기여는 멀티 레이블 학습 (multi-label learning)을 위한 새로운 대리 손실 함수 (surrogate loss functions)를 설계하는 것이며, 이는 증명 가능한 $H$-일관성 경계 (bounds)를 허용하여 가설 클래스 (hypothesis class)와 유한한 샘플 (finite samples)에 맞춤화된 비점근적 (non-asymptotic) 보장과 함께 최적화를 가능하게 합니다. 결정적으로, 우리는 이러한 조합론적으로 공식화된 대리 함수 (surrogates)가 정확하게 분해됨을 증명하며, 근사치 없이 엄격하게 $O(l)$ 시간 내에 작동함을 보여줍니다. 이러한 토대 위에, 우리는 일반화된 선형-분수 지표 (linear-fractional metrics)를 최적화하기 위한 새로운 알고리즘 군인 MMO (Multi-Label Metric Optimization)를 소개합니다. 우리는 광범위한 실험을 통해 우리의 접근 방식을 검증하였으며, 고희소성 (high-sparsity) 및 딥러닝 (deep learning) 환경의 대규모 데이터셋 (MS-COCO, Reuters-21578)에서 최신 연속형 베이스라인 (continuous baselines) 대비 견고한 확장성과 우수한 성능을 입증했습니다. 우리의 결과는 일반적인 멀티 레이블 지표 최적화에 대해 이론적 엄밀함과 실질적인 효과성을 모두 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

멀티 레이블 학습 (Multi-Label Learning)에서 일반화된 지표 (Generalized Metrics) 최적화를 위한 원칙적인

요약

핵심 포인트

댓글