arXiv논문2026. 06. 30. 13:09

IID를 넘어: Tabular Foundation Models는 실제로 얼마나 일반화되는가?

요약

표 형식 데이터(Tabular Data)를 위한 파운데이션 모델의 일반화 능력을 평가하기 위해 통합 벤치마크인 BeyondArena를 제안합니다. 기존 벤치마크가 IID 데이터에 치중된 한계를 극복하고, 비-IID 및 고차원 데이터에서의 모델 성능을 다각도로 분석합니다.

핵심 포인트

통합 벤치마크 BeyondArena 및 데이터 큐레이션 프레임워크 Data Foundry 소개
기존 모델들이 IID 데이터에서는 강하나 비-IID 및 대규모 데이터에서는 한계가 있음을 증명
다양한 샘플 크기, 피처 차원, 태스크 유형을 포함하는 포괄적 평가 체계 구축

표 형식 데이터(tabular data)에 대한 예측 머신러닝(predictive machine learning)을 위한 파운데이션 모델(Foundation models)은 최근 학계와 산업계에서 상당한 주목을 받고 있습니다. 다양한 분야의 연구 커뮤니티는 점점 더 다양한 데이터셋과 태스크에서 tabular foundation models를 평가하고 있습니다. 그러나 벤치마크 소프트웨어와 평가 프로토콜이 파편화되어 있어, 이러한 태스크 및 분야별 평가는 모델 연구자들에게 여전히 접근하기 어려운 상태로 남아 있습니다. 그 결과, 모델 연구자들은 tabular foundation models가 이미 뛰어난 성능을 보이는 태스크를 위해 정의된 표준 벤치마크에 의존하게 됩니다. 가장 도전적인 시나리오들은 제외되고 있으며, 이는 더 넓고 까다로운 과제보다는 IID(Independent and Identically Distributed) 데이터에서의 미미한 개선에 집중함으로써 해당 분야의 의미 있는 발전을 제한합니다. 이를 극복하기 위해, 우리는 다양한 분야의 광범위한 샘플 크기 및 피처 차원(feature dimensionality) 규모, 그리고 다양한 피처 유형(텍스트 포함, 높은 카디널리티(high cardinality) 포함)에 걸쳐 다양한 태스크 유형(IID, temporal, grouped)을 지원하는 tabular data를 위한 최초의 통합적이고 총체적인 벤치마크인 BeyondArena를 소개합니다. 표준 벤치마크를 넘어선 통합적인 벤치마킹을 가능하게 하기 위해, 우리는 예측 머신러닝을 위한 tabular 데이터셋을 큐레이션하기 위한 Python 프레임워크이자 메타데이터 스키마인 Data Foundry를 도입합니다. 11개의 모델과 142개의 큐레이션된 데이터셋에 대한 연구 결과에 따르면, 기존의 tabular foundation models는 아주 작거나 중간 크기의 IID 데이터에서는 뛰어난 성능을 보이는 반면, 비-IID(non-IID), 대규모 및 고차원 데이터셋에서는 전통적인 트리 기반(tree-based) 및 딥러닝(deep learning) 모델이 여전히 우세함을 보여줍니다. BeyondArena는 tabular data의 가장 까다로운 과제들을 향한 모델 연구를 안내하며, 진정한 의미의 tabular foundation models를 향한 발전을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

IID를 넘어: Tabular Foundation Models는 실제로 얼마나 일반화되는가?

요약

핵심 포인트

댓글