심각한 클래스 불균형 하의 개인별 결근 예측을 위한 시계열 분류 프레임워크
요약
심각한 클래스 불균형 상황에서 개인별 결근을 선제적으로 예측하기 위한 시계열 분류(TSC) 프레임워크를 제안합니다. 기존 회귀 방식의 한계를 극복하기 위해 시퀀스 데이터를 활용하며, BFL과 G-Mean 손실 함수를 통해 불균형 문제를 해결합니다.
핵심 포인트
- 기존 회귀 방식의 한계를 극복하는 시계열 분류 프레임워크 제안
- 심각한 클래스 불균형 해결을 위한 BFL 및 G-Mean 손실 함수 분석
- LSTM-FCN 아키텍처가 정밀도와 특이도 측면에서 가장 우수한 성능 기록
- 적절한 배치 크기(≥64)와 윈도우 크기(40~80일)의 중요성 확인
직원들의 결근은 의료, 응급 서비스, 육류 가공, 건설, 택배 및 배송 서비스와 같이 수요가 높은 작업 환경에서 상당한 운영 비용을 발생시킵니다. 이러한 환경에서는 선제적인 인력 계획이 신뢰할 수 있는 개인별 결근 예측에 달려 있습니다. 기존의 회귀(regression) 및 분류(classification) 접근 방식들은 구조적 한계를 공유합니다. 이들은 시간 $t$에서 관찰된 특징(feature)을 같은 시간 $t$의 레이블로 매핑하여, 이미 실현된 결과만을 재현할 뿐 미래 사건을 예측하지 못하며, 개인 출근 기록에 내재된 순차적 행동 구조를 무시합니다. 본 논문에서는 역사적 출근 시퀀스를 미래 결근 레이블과 분리하는 시계열 분류(Time Series Classification, TSC) 프레임워크를 제안하여 진정으로 선제적인 예측을 가능하게 합니다. 공개적인 종단적 출근 데이터의 부족으로 인해, 우리는 UCI 데이터셋에 맞춰 보정된 재현 가능한 시뮬레이션 데이터셋을 구축했습니다. 우리는 불균형 비율 $
ho$만을 사용하여 심각한 클래스 불균형 하에서 Binary Focal Loss (BFL)와 Geometric Mean (G-Mean) 손실 함수를 분석합니다. BFL의 경우, 초기 기울기 비율은 $
hoeta/(1-eta)$가 되며, 이는 균형 가중치 $eta= 1/(1+
ho) allingdotseq 0.023$을 의미합니다. 실험 결과에 따르면 성능은 주로 $eta$에 의해 결정되며, BFL은 특이도(specificity) 0.813과 균형 정확도(balanced accuracy) 0.888을 달성하여 G-Mean과 비교할 만한 수준입니다. BFL과 달리 G-Mean은 매개변수 보정 없이 자동으로 적응합니다. 평가된 세 가지 딥러닝 아키텍처 중, Long Short-Term Memory (LSTM), Convolutional Neural Network (CNN), 그리고 하이브리드 LSTM-Fully Convolutional Network (LSTM-FCN) 중에서 LSTM-FCN이 강력한 정밀도(precision)와 특이도를 제공합니다. 배치 크기(batch sizes)가 $\ge 64$이고 윈도우 크기(window sizes)가 40~80일 사이일 때 안정적인 성능을 얻었으며, 이는 제외된 테스트 데이터에서 약 80%의 균형 정확도를 나타냈습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기