arXiv논문2026. 06. 02. 13:02

TabPrep: 정형 데이터 벤치마크의 피처 엔지니어링 (Feature Engineering) 격차 해소

요약

정형 데이터 머신러닝에서 간과되었던 피처 엔지니어링의 중요성을 강조하며, 새로운 전처리 파이프라인인 TabPrep을 제안합니다. TabPrep은 특정 데이터 패턴을 겨냥한 피처 생성기를 통해 다양한 모델의 성능을 일관되게 향상시킵니다.

핵심 포인트

정형 데이터 벤치마크 내 피처 엔지니어링 격차 해소
구조적 데이터 패턴을 겨냥한 경량 전처리 파이프라인 TabPrep 제안
트리, 신경망, 선형 및 파운데이션 모델의 성능을 일관되게 향상
모델 중심 혁신보다 체계적인 피처 엔지니어링의 이득이 더 큼

정형 데이터 머신러닝 (Tabular Machine Learning)의 발전은 주로 점점 더 정교해지는 모델 아키텍처 (Model Architectures)에 집중되어 왔습니다. 동시에, 피처 엔지니어링 (Feature Engineering)은 실제 모델링 파이프라인 (Modeling Pipelines)에서 매우 중요함에도 불구하고 충분히 탐구되지 않은 구성 요소로 남아 있으며, 현대적인 벤치마크 (Benchmarks)에서는 완전히 결여되어 있어 정량화되지 않은 평가 격차를 발생시키고 있습니다. 본 연구에서는 세 가지 특정 구조적 데이터 패턴 (Structural Data Patterns)을 겨냥하여 세심하게 설계된 피처 생성기 (Feature Generators)로 구성된 경량 전처리 파이프라인 (Preprocessing Pipeline)인 TabPrep을 소개합니다. 우리는 널리 사용되는 많은 모델 클래스 (Model Classes)가 이러한 패턴에 대해 예측 가능한 사각지대 (Blind Spots)를 보이며, 체계적인 피처 엔지니어링 (Feature Engineering)만으로도 새로운 최고 성능 (Peak Performance)을 달성할 수 있음을 보여줍니다. TabArena 벤치마크 전반에 걸쳐, 모델 훈련 및 튜닝 (Tuning)에 TabPrep을 통합하는 것은 트리 기반 (Tree-based), 신경망 (Neural), 선형 (Linear) 및 파운데이션 모델 (Foundation Models)의 성능을 일관되게 향상시키며, 종종 모델 중심의 혁신 (Model-centric Innovations)만으로 달성한 이득을 능가합니다. TabPrep은 성능, 효율성 및 데이터셋 전반의 적용 가능성 측면에서 이전의 자동화된 피처 엔지니어링 (Automated Feature Engineering) 방식보다 뛰어난 성능을 보이며, 대규모 벤치마크로의 통합을 가능하게 합니다. TabPrep을 공개함으로써 (https://github.com/atschalz/tabprep 참조), 우리는 연구자들이 피처 엔지니어링 (Feature Engineering)을 벤치마킹 설정에 통합할 수 있도록 하여, 정형 데이터 평가 (Tabular Evaluations)의 오랜 격차를 메우고자 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TabPrep: 정형 데이터 벤치마크의 피처 엔지니어링 (Feature Engineering) 격차 해소

요약

핵심 포인트

댓글