심각한 클래스 불균형 하의 개인별 결근 예측을 위한 시계열 분류 프레임워크

직원들의 결근은 의료, 응급 서비스, 육류 가공, 건설, 택배 및 배송 서비스와 같이 수요가 높은 작업 환경에서 상당한 운영 비용을 발생시킵니다. 이러한 환경에서는 선제적인 인력 계획이 신뢰할 수 있는 개인별 결근 예측에 달려 있습니다. 기존의 회귀(regression) 및 분류(classification) 접근 방식들은 구조적 한계를 공유합니다. 이들은 시간 $t$에서 관찰된 특징(feature)을 같은 시간 $t$의 레이블로 매핑하여, 이미 실현된 결과만을 재현할 뿐 미래 사건을 예측하지 못하며, 개인 출근 기록에 내재된 순차적 행동 구조를 무시합니다. 본 논문에서는 역사적 출근 시퀀스를 미래 결근 레이블과 분리하는 시계열 분류(Time Series Classification, TSC) 프레임워크를 제안하여 진정으로 선제적인 예측을 가능하게 합니다. 공개적인 종단적 출근 데이터의 부족으로 인해, 우리는 UCI 데이터셋에 맞춰 보정된 재현 가능한 시뮬레이션 데이터셋을 구축했습니다. 우리는 불균형 비율 $
ho$만을 사용하여 심각한 클래스 불균형 하에서 Binary Focal Loss (BFL)와 Geometric Mean (G-Mean) 손실 함수를 분석합니다. BFL의 경우, 초기 기울기 비율은 $
hoeta/(1-eta)$가 되며, 이는 균형 가중치 $eta= 1/(1+
ho) allingdotseq 0.023$을 의미합니다. 실험 결과에 따르면 성능은 주로 $eta$에 의해 결정되며, BFL은 특이도(specificity) 0.813과 균형 정확도(balanced accuracy) 0.888을 달성하여 G-Mean과 비교할 만한 수준입니다. BFL과 달리 G-Mean은 매개변수 보정 없이 자동으로 적응합니다. 평가된 세 가지 딥러닝 아키텍처 중, Long Short-Term Memory (LSTM), Convolutional Neural Network (CNN), 그리고 하이브리드 LSTM-Fully Convolutional Network (LSTM-FCN) 중에서 LSTM-FCN이 강력한 정밀도(precision)와 특이도를 제공합니다. 배치 크기(batch sizes)가 $\ge 64$이고 윈도우 크기(window sizes)가 40~80일 사이일 때 안정적인 성능을 얻었으며, 이는 제외된 테스트 데이터에서 약 80%의 균형 정확도를 나타냈습니다.

Insights

심각한 클래스 불균형 하의 개인별 결근 예측을 위한 시계열 분류 프레임워크

요약

핵심 포인트

댓글

Evo-PI: 진화하는 원칙 기반 감독을 통한 의료 추론 정렬

RAISE: 강건한 적대적 인스턴스 탐색을 통한 LLM 기반 자동 휴리스틱 설계

대규모 데이터베이스에는 작고 오픈 웨이트(Open-Weight)인 언어 모델이 필요하다

Evo-PI: 진화하는 원칙 기반 감독을 통한 의료 추론 정렬

RAISE: 강건한 적대적 인스턴스 탐색을 통한 LLM 기반 자동 휴리스틱 설계

대규모 데이터베이스에는 작고 오픈 웨이트(Open-Weight)인 언어 모델이 필요하다