TabSwift: 행 단위 어텐션 (Row-Wise Attention)을 활용한 효율적인 정형 데이터 파운데이션 모델 (Tabular
요약
TabSwift는 행 단위 어텐션(Row-Wise Attention)을 활용하여 효율성을 극대화한 정형 데이터 파운데이션 모델입니다. 기존 모델의 높은 추론 비용 문제를 해결하기 위해 게이트 어텐션 안정화와 레지스터 토큰을 도입하여 경량화된 백본을 구축했습니다.
핵심 포인트
- 행 단위 어텐션 전용 백본을 통한 추론 효율성 증대
- 게이트 어텐션 안정화 및 레지스터 토큰으로 사전 학습 품질 향상
- 분류 및 회귀 작업을 모두 지원하는 범용성 확보
- 적응형 계층별 조기 종료 메커니즘으로 지연 시간 최적화
TabPFN으로 대표되는 정형 데이터 파운데이션 모델 (Tabular foundation models)은 레이블이 지정된 학습 예시로부터 테스트 레이블을 직접 추론하는 인컨텍스트 러닝 (In-context learning)을 통해 예측을 수행합니다. 이 모델들은 특히 소-중규모 데이터셋에서 경쟁력 있는 성능을 입증해 왔습니다. 그러나 최근의 정형 데이터 파운데이션 모델들은 점점 더 복잡한 아키텍처 (Architectures)를 통해 정확도를 높이는 경향이 있으며, 이는 더 높은 추론 비용 (Inference cost)을 초래하고 실제 배포를 제한합니다. 본 연구에서는 기존 TabPFN 설계를 재검토하며, 두 가지 간단한 개선 사항—게이트 어텐션 안정화 메커니즘 (Gated attention stabilization mechanism)과 전역적 문맥 (Global context)을 제공하고 사전 학습 (Pretraining) 품질을 향상시키는 소수의 학습 가능한 레지스터 토큰 (Register tokens) 세트—을 통해 경량화된 행 단위 어텐션 전용 백본 (Row-wise attention-only backbone)이 여전히 높은 경쟁력을 유지할 수 있음을 보여줍니다. 그 결과물인 TabSwift 모델은 분류 (Classification)와 회귀 (Regression)를 모두 지원하며, 더 강력한 정형 데이터 파운데이션 모델(예: TabPFN v2 및 TabICL)과 경쟁할 수 있는 동시에 추론 시에는 더 효율적입니다. 지연 시간 (Latency)에 민감한 서빙을 위해, 우리는 샘플당 추론 깊이를 동적으로 조정하는 적응형 계층별 조기 종료 (Adaptive layer-wise early-exit) 메커니즘을 추가로 도입합니다. 종합적으로, TabSwift는 실제 배포를 위한 효율적이고 언제든 사용 가능한 (Anytime) 정형 데이터 인컨텍스트 러닝을 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기