TaskFusion: 이질적인 정형 데이터(Heterogeneous Tabular Data)를 위한 지속적 이상 탐지 (Continual
요약
이질적인 정형 데이터 환경에서 발생하는 분포 변화와 클래스 불균형 문제를 해결하기 위한 지속적 이상 탐지 방법론인 TaskFusion을 제안합니다. AGF 모델, Taskfusion augmentation, outlier exposure를 통해 파괴적 망각을 줄이고 안정적인 탐지 성능을 구현했습니다.
핵심 포인트
- 이질적인 피처 스키마와 분포 변화를 극복하는 지속 학습 방법론 제안
- AGF 모델을 통한 태스크별 피처의 공유 공간 매핑 및 분포 정렬
- Taskfusion augmentation을 통한 태스크 간 이상 구조 전이 및 경계 정교화
- 데이터셋 증류를 활용한 압축된 합성 리플레이 샘플로 메모리 제약 해결
- 21개 이질적 데이터셋 평가 결과, 기존 베이스라인 대비 우수한 성능 입증
정형 데이터(tabular data)에서의 지속적 이상 탐지(continual anomaly detection)는 이질적인 피처 스키마(heterogeneous feature schemas), 분포 변화(distribution shifts), 그리고 심각한 클래스 불균형(class imbalance)이 존재하는 환경에서 매우 까다로우며 여전히 충분히 연구되지 않은 상태입니다. 많은 실제 응용 분야에서 데이터는 다양한 도메인으로부터 순차적으로 도착하며, 기존의 지속 학습(continual learning, CL) 방법론들은 고정된 입력 공간(fixed input space)에 의존하기 때문에 효과적이지 못합니다. 우리는 이러한 과제들을 극복하고 서로 다른 태스크로부터 지속적으로 학습할 수 있는 지속 학습 (CL) 방법을 제안합니다. 우리의 방법은 세 가지 주요 부분인 AGF 모델, Taskfusion augmentation, 그리고 outlier exposure로 구성됩니다. AGF 모델은 태스크별 피처(task-specific features)를 공유 공간(shared space)으로 매핑한 다음, 표현 드리프트(representation drift)를 줄이기 위해 분포를 정렬(align)하며, 정렬된 공간에서 이상 탐지 결정 경계(anomaly decision boundaries)를 학습합니다. 안정성을 향상시키기 위해, 우리는 태스크 내에서 경계 인식 보간(boundary-aware interpolation)을 결합하여 모델의 이상 경계를 정교화하고, 데이터셋 간에 이상 구조를 전이하는 태스크 간 혼합(cross-task mixing)을 수행하는 Taskfusion augmentation을 도입합니다. 클래스 불균형과 메모리 제약을 처리하기 위해, 우리는 정형 데이터셋 증류(tabular dataset distillation)를 사용하여 압축된 합성 리플레이 샘플(compact synthetic replay samples)을 저장하며, 이를 증강된 데이터와 함께 outlier exposure 목적 함수(objective)에서 공동으로 사용하여 강건한 이상 탐지를 수행합니다. 우리는 여러 도메인에 걸친 21개의 이질적인 데이터셋을 통해 이 접근 방식을 평가합니다. 결과에 따르면, 우리의 접근 방식은 순차적 미세 조정(sequential fine-tuning) 및 기타 CL 베이스라인 모델들에 비해 지속적 이상 탐지 성능을 실질적으로 향상시키는 동시에, 파괴적 망각(catastrophic forgetting)을 줄이고 이질적인 데이터셋 전반에서 안정적인 탐지 성능을 유지함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기