데이터 효율적 능동 학습을 위한 군 불변 코어셋 (Group-invariant Coresets)
요약
데이터의 대칭성을 고려하여 레이블링 효율을 높이는 새로운 능동 학습 프레임워크 GRINCO를 제안합니다. 변환 군을 활용한 몫 공간에서 코어셋을 선택함으로써 중복된 데이터를 배제하고 정보 가치가 높은 샘플을 효과적으로 추출합니다.
핵심 포인트
- 데이터 대칭성을 무시하는 기존 코어셋 방식의 예산 낭비 문제 해결
- 변환 군 기반의 몫 공간에서 획득을 수행하는 GRINCO 프레임워크 제안
- 궤도 평균 손실과 몫 공간 k-센터 선택을 결합한 불변 학습 방식
- 이미지 벤치마크 실험을 통해 기존 방식 대비 높은 레이블 효율성 입증
능동 학습 (Active learning)은 가장 정보가 많은 미레이블 샘플 (unlabeled samples)을 질의함으로써 레이블링 비용을 줄이지만, 표준적인 코어셋 (coreset) 방법들은 알려진 데이터 대칭성 (symmetries)을 무시하며 동일한 인스턴스의 변형된 버전들에 예산을 낭비할 수 있습니다. 우리는 변환 군 (transformation group)에 의해 유도된 몫 공간 (quotient space)에서 획득 (acquisition)을 수행하여, 선택이 원본 샘플이 아닌 궤도 (orbits) 상에서 작동하도록 하는 군 불변 코어셋 (group-invariant coreset) 프레임워크인 GRINCO를 제안합니다. 이 방법은 실용적인 몫 메트릭 (quotient metrics)을 정의하기 위해 표준 대표값 (canonical representatives) 또는 학습된 궤도 분리 불변 임베딩 (learned orbit-separating invariant embeddings)을 사용하며, 궤도 평균 손실 (orbit-averaged loss)을 통한 불변 학습 (invariant training)과 몫 공간 k-센터 선택 (quotient-space k-center selection)을 결합합니다. 나아가 우리는 초과 궤도 평균 리스크 (excess orbit-averaged risk)를 몫 공간 커버리지 (quotient-space coverage), 레이블 불확실성 (label uncertainty), 그리고 궤도 내 변동성 (intra-orbit variability)과 연결하는 일반화 경계 (generalization bound)를 도출합니다. 스케일 불변 (scale-invariant) 합성 데이터와 회전 유도 중복성 (rotation-induced redundancy)이 있는 이미지 벤치마크에 대한 실험을 통해, GRINCO가 궤도 커버리지 (orbit coverage)를 개선하고 특히 군 유도 중복성 (group-induced redundancy)이 상당할 때 기존 코어셋 베이스라인보다 더 강력한 레이블 효율성을 달성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기