메타데이터 기반 분류에서의 평가 주권: 약지도 정보 시스템을 위한 다중 트랙 프레임워크
요약
본 논문은 기계 학습 평가가 중립적이지 않으며, 레이블 생성 프로세스에 의해 조건화됨을 지적합니다. 따라서 분류 성능 향상 대신, 서로 다른 '레이블 권한 체제' 하에서의 성능 측정 타당성을 조사하는 다중 트랙 평가 프레임워크를 제안합니다.
핵심 포인트
- ML 평가는 중립적이지 않으며 레이블 생성 프로세스에 의해 조건화된다.
- 성능 향상보다 '평가 주권' 확보가 핵심 목표이다.
- '평가 주권'은 성능 지표가 레이블 권한 및 지도 체제로부터 독립적인 정도를 의미한다.
- 다중 트랙 프레임워크로 훈련/평가 레이블 소스를 변화시켜 타당성을 검증한다.
기계 학습(machine learning)에서의 평가는 일반적으로 중립적인 측정 과정으로 취급됩니다. 그러나 운영 정보 시스템(operational information systems)에서 평가 결과는 레이블을 생성하는 데 사용된 프로세스에 의해 종종 조건화됩니다. 본 논문은 분류 성능 향상을 목표로 하지 않습니다. 대신, 서로 다른 레이블 권한 체제(label-authority regimes) 하에서의 성능 측정의 타당성을 조사합니다. 이 문제는 특히 레이블이 불완전하거나, 일관성이 없거나, 약지도(weakly supervised)인 대규모 메타데이터 기반 시스템에서 중요합니다. 우리는 평가 주권(evaluation sovereignty)을 도입하는데, 이는 성능 지표가 레이블 권한 및 지도 체제로부터 독립적인 정도를 의미하며, 훈련 및 평가 레이블 소스를 체계적으로 변화시키는 다중 트랙 평가 프레임워크를 제안합니다. 대규모 과학 메타데이터에 계층적 다중 레이블 분류(hierarchical multi-label classification)를 적용하여, 운영(
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기