arXiv논문2026. 06. 03. 11:04

AutoTail-BSFGM: 중국어 학술 텍스트 분류를 위한 클래스 균형 인식 미세 조정 (Class-Balance-Aware

요약

중국어 학술 텍스트 분류의 불균형 문제를 해결하기 위한 AutoTail-BSFGM 방법론을 제안합니다. 자동 게이트형 테일-사전 조정과 Balanced Softmax, FGM 적대적 정규화를 결합하여 추론 시 추가 비용 없이 분류 성능을 향상시킵니다.

핵심 포인트

클래스 불균형 및 의미론적 인접성 문제 해결
학습 목적 함수와 절차만 변경하여 추론 효율성 유지
Chinese RoBERTa-WWM 및 MacBERT-base 성능 검증
초록 및 제목 기반 학술 분류 작업에서 정확도 향상

학술 텍스트 분류 (Scholarly text classification)는 문헌 정리, 주제 색인화 및 연구 인텔리전스를 지원하지만, 중국어 학술 코퍼스 (Chinese scholarly corpora)는 불균형하고 의미론적으로 인접한 학문 분야 레이블 (disciplinary labels)을 포함하는 경우가 많습니다. 우리는 자동 게이트형 테일-사전 조정 (automatically gated tail-prior adjustment), 약한 균형 소프트맥스 (weak Balanced Softmax) 보조 손실 함수, 그리고 빠른 경사법 (Fast Gradient Method, FGM) 적대적 정규화 (adversarial regularization)를 결합한 클래스 균형 인식 미세 조정 (class-balance-aware fine-tuning) 방법인 AutoTail-BSFGM을 제안합니다. 이 방법은 오직 학습 목적 함수 (training objective)와 절차 (procedure)만을 변경하며, 추론 (inference) 시에는 레이블 평활화 (label-smoothed) 베이스라인과 동일한 단일 베이스 사이즈 인코더 (single base-size encoder) 및 선형 분류기 (linear classifier)를 사용합니다. 우리는 CSL 기반의 두 가지 작업, 즉 67개의 레이블을 가진 초록-분야 분류 (abstract-to-discipline) 작업과 13개의 카테고리를 가진 제목-카테고리 (title-to-category) 작업에서 이 방법을 평가합니다. 주요 초록 작업에서 AutoTail-BSFGM은 Chinese RoBERTa-WWM 및 MacBERT-base 모두에서 검증 (validation) 및 락박스 (lockbox) 정확도를 향상시킵니다. MacBERT-base를 사용할 경우, 검증 정확도는 0.83 퍼센트 포인트, 락박스 정확도는 0.49 포인트 증가하였으며, 검증 데이터에 대한 풀링된 쌍 McNemar 신호 (pooled paired McNemar signal)는 p = 0.023을 기록했습니다. 제목 작업에서는 이 방법이 검증 정확도를 0.70 포인트, 검증 균형 정확도 (validation balanced accuracy)를 2.64 포인트 향상시켰습니다. 락박스 정확도는 거의 중립적이었으나, 락박스 균형 정확도는 1.22 포인트 향상되었습니다. 이러한 결과는 제한된 기여 (bounded contribution)를 뒷받침합니다: AutoTail-BSFGM은 클래스 균형에 민감한 동작을 개선하며, 모든 분할 (split)에서 모든 지표를 일률적으로 향상시키지는 않지만 초록 기반 학술 분류에서 일관된 이득을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AutoTail-BSFGM: 중국어 학술 텍스트 분류를 위한 클래스 균형 인식 미세 조정 (Class-Balance-Aware

요약

핵심 포인트

댓글