아키텍처보다 데이터 제시가 중요하다: Tabular Foundation Models를 이용한 신용 위험 예측을 위한 재샘플링 전략
요약
신용 부도 예측과 같은 정형 데이터 학습에서 Tabular Foundation Models(TFMs)의 성능은 모델 아키텍처보다 컨텍스트 윈도우를 구성하는 샘플링 전략에 더 큰 영향을 받습니다. 연구 결과, 균형 잡힌 샘플링(balanced sampling)을 통해 구축된 컨텍스트가 모델 종류보다 AUC-ROC 성능 향상에 더 결정적인 역할을 함을 확인했습니다.
핵심 포인트
- TFM의 성능은 모델 아키텍처 선택보다 컨텍스트 구축 전략(샘플링 방식)에 더 민감하게 반응함
- 균형 잡힌 샘플링 및 하이브리드 샘플링이 균등 샘플링 대비 AUC-ROC를 3~4 포인트 향상시킴
- 5K~10K 규모의 균형 잡힌 컨텍스트를 사용할 경우, TFM이 고전적 베이스라인 수준의 성능과 더 높은 부도 클래스 재현율을 달립
- 불균형한 정형 데이터 환경에서 TFM 배포 시 핵심 레버는 컨텍스트 구성 전략임
신용 부도 예측 (Credit default prediction)은 심각한 클래스 불균형 (class imbalance), 이질적인 특징 (heterogeneous features), 그리고 엄격한 지연 시간 예산 (latency budgets)을 가진 정형 데이터 학습 (tabular learning) 문제입니다. Tabular Foundation Models (TFMs)는 인컨텍스트 학습 (in-context learning)을 통해 이 문제에 접근하며, 이는 컨텍스트 윈도우 (context window)가 어떻게 구축되는지에 따라 예측 결과가 민감하게 반응하게 만듭니다. 우리는 Home Credit 및 Lending Club 데이터셋을 사용하여 4개의 고전적 모델 (classical models)과 5개의 TFM을 벤치마킹하였으며, 컨텍스트 구축 전략 (7가지 옵션)과 컨텍스트 크기 (1K에서 50K까지)를 변화시켰습니다. 두 데이터셋 모두에서, 컨텍스트 전략의 선택은 TFM 제품군 (TFM family)의 선택보다 AUC-ROC의 분산을 더 많이 설명합니다. 균형 잡힌 샘플링 (balanced sampling)과 하이브리드 샘플링 (hybrid sampling)은 균등 샘플링 (uniform sampling)에 비해 3~4 AUC 포인트를 추가하며, 이 격차는 TFM 간의 차이보다 큽니다. 5K에서 10K개의 예시로 구성된 균형 잡힌 컨텍스트를 사용할 경우, 가장 강력한 TFM은 전체 데이터로 학습된 고전적 베이스라인 (classical baselines)의 AUC에 도달하는 동시에, 기본 임계값 기반의 GBDT가 확보하지 못하는 의미 있는 부도 클래스 재현율 (default-class recall)을 회복합니다. 우리는 이를 아키텍처 선택보다 컨텍스트 구축이 불균형한 신용 위험 환경에서 TFM을 배포할 때의 주요 레버 (primary deployment lever)라는 증거로 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기