arXiv논문2026. 06. 08. 10:55

TabSwift: 행 단위 어텐션 (Row-Wise Attention)을 활용한 효율적인 정형 데이터 파운데이션 모델 (Tabular

요약

TabSwift는 행 단위 어텐션(Row-Wise Attention)을 활용하여 효율성을 극대화한 정형 데이터 파운데이션 모델입니다. 기존 모델의 높은 추론 비용 문제를 해결하기 위해 게이트 어텐션 안정화와 레지스터 토큰을 도입하여 경량화된 백본을 구축했습니다.

핵심 포인트

행 단위 어텐션 전용 백본을 통한 추론 효율성 증대
게이트 어텐션 안정화 및 레지스터 토큰으로 사전 학습 품질 향상
분류 및 회귀 작업을 모두 지원하는 범용성 확보
적응형 계층별 조기 종료 메커니즘으로 지연 시간 최적화

TabPFN으로 대표되는 정형 데이터 파운데이션 모델 (Tabular foundation models)은 레이블이 지정된 학습 예시로부터 테스트 레이블을 직접 추론하는 인컨텍스트 러닝 (In-context learning)을 통해 예측을 수행합니다. 이 모델들은 특히 소-중규모 데이터셋에서 경쟁력 있는 성능을 입증해 왔습니다. 그러나 최근의 정형 데이터 파운데이션 모델들은 점점 더 복잡한 아키텍처 (Architectures)를 통해 정확도를 높이는 경향이 있으며, 이는 더 높은 추론 비용 (Inference cost)을 초래하고 실제 배포를 제한합니다. 본 연구에서는 기존 TabPFN 설계를 재검토하며, 두 가지 간단한 개선 사항—게이트 어텐션 안정화 메커니즘 (Gated attention stabilization mechanism)과 전역적 문맥 (Global context)을 제공하고 사전 학습 (Pretraining) 품질을 향상시키는 소수의 학습 가능한 레지스터 토큰 (Register tokens) 세트—을 통해 경량화된 행 단위 어텐션 전용 백본 (Row-wise attention-only backbone)이 여전히 높은 경쟁력을 유지할 수 있음을 보여줍니다. 그 결과물인 TabSwift 모델은 분류 (Classification)와 회귀 (Regression)를 모두 지원하며, 더 강력한 정형 데이터 파운데이션 모델(예: TabPFN v2 및 TabICL)과 경쟁할 수 있는 동시에 추론 시에는 더 효율적입니다. 지연 시간 (Latency)에 민감한 서빙을 위해, 우리는 샘플당 추론 깊이를 동적으로 조정하는 적응형 계층별 조기 종료 (Adaptive layer-wise early-exit) 메커니즘을 추가로 도입합니다. 종합적으로, TabSwift는 실제 배포를 위한 효율적이고 언제든 사용 가능한 (Anytime) 정형 데이터 인컨텍스트 러닝을 가능하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TabSwift: 행 단위 어텐션 (Row-Wise Attention)을 활용한 효율적인 정형 데이터 파운데이션 모델 (Tabular

요약

핵심 포인트

댓글