표 형식 파운데이션 모델 (Tabular Foundation Models)의 앙상블 - 다양성 한계와 보정 함정
요약
표 형식 파운데이션 모델(TFM)의 앙상블 성능을 분석한 결과, 모델 간의 높은 상관관계로 인해 앙상블을 통한 성능 향상이 매우 제한적임을 확인했습니다. 6개의 최신 TFM을 벤치마킹했을 때, 가장 우수한 앙상블 전략도 단일 모델 대비 정확도는 미미하게 높았으나 연산 비용은 253배나 더 소모되었습니다. 또한, 메타 학습기를 활용한 스태킹 방식은 정확도를 높일 수는 있지만 모델의 보정(calibration) 성능을 저해하는 문제가 발생합니다.
핵심 포인트
- 현대적인 TFM들은 매우 높은 상관관계(Q-statistic 0.961)를 보여 앙상블의 이점이 적음
- 최적의 앙상블 전략인 2단계 캐스케이드 스태킹은 정확도를 0.18% 높이는 대신 연산량을 253배 증가시킴
- 로지스틱 회귀 메타 학습기는 정확도를 개선하지만 로그 손실(log-loss) 측면에서 보정 성능을 파괴함
- 실용적인 대안으로 모델을 선택할 때 탐욕적 선택(greedy selection) 방식을 권장함
표 형식 파운데이션 모델 (Tabular Foundation Models, TFMs)은 이제 점점 더 많은 표 형식 작업 (tabular tasks)에서 미세 조정된 그래디언트 부스팅 트리 (gradient-boosted trees)와 대등하거나 이를 능가하고 있지만, 모든 데이터셋에서 승리하는 단일 TFM은 없습니다. 여기서 앙상블 (Ensembling)은 일반적인 해결책이지만, 기대만큼 효과적이지 않습니다. 6개의 현대적인 TFM은 거의 중복되는 풀 (pool)을 형성합니다. 이들의 평균 쌍별 Q-통계량 (pairwise Q-statistic)은 $0.961$로, $1$에 매우 가까워 어떠한 볼록 조합 (convex combination)도 상한선에 갇히게 됩니다. 우리는 153개의 OpenML 분류 작업 (classification tasks)에 대해 6개의 TFM을 대상으로 6가지 앙상블 전략을 벤치마킹했습니다. 가장 우수한 앙상블인 2단계 캐스케이드 스태킹 (two-level cascade stacking)은 가장 강력한 단일 TFM보다 정확도를 $+0.18%$ 높였지만, 연산량 (compute)은 $253\times$ 더 소모되었습니다. Friedman 및 Nemenyi 분석 결과, 3개의 앙상블과 가장 우수한 베이스 TFM이 하나의 동등 그룹 (equivalence group)에 속하는 것으로 나타났으며, 나머지 3개의 앙상블은 가장 우수한 베이스 모델보다 유의미하게 extit{더 나쁜} 성능을 보였습니다. 로지스틱 회귀 (logistic-regression) 메타 학습기 (meta-learner)를 사용한 스태킹 (Stacking)은 가장 눈에 띄는 사례입니다. 경쟁력 있는 정확도 (accuracy)와 ROC-AUC를 보여주었으나, 앙상블 중 로그 손실 (log-loss) 순위는 가장 낮았습니다. 메타 학습기는 클래스 경계 (class boundaries)를 날카롭게 하여 정확도를 개선하지만, 이는 보정 (calibration)을 파괴합니다. 우리는 실용적인 기본값으로 탐욕적 선택 (greedy selection)을 권장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기