arXiv논문2026. 06. 04. 13:21

TabPFN을 위한 텍스트 인코더 사전 학습(Pretraining)을 향하여

요약

TabPFN과 같은 정형 데이터 모델이 텍스트 피처를 처리할 때 발생하는 정보 병목 현상을 해결하기 위한 새로운 어댑터 방식을 제안합니다. PCA 압축 대신 경량 어댑터를 통해 텍스트 임베딩을 TabPFN의 토큰 공간으로 직접 매핑하여 효율성을 높였습니다.

핵심 포인트

기존 PCA 기반 텍кси트 임베딩 방식의 정보 손실 문제 지적
TabPFN Text Adapter를 통한 텍스트-정형 데이터 정렬
문장 인코더와 TabPFN을 동결한 상태에서 경량 어댑터만 학습
엔드투엔드 방식 대비 높은 학습 효율과 정보 보존 능력

TabPFN과 같은 정형 데이터 파운데이션 모델(Tabular foundation models)은 수치형 및 범주형 데이터가 포함된 정형 데이터셋에서 강력한 성능을 발휘하지만, 높은 카디널리티(high-cardinality)를 가진 텍스트 피처(text features)를 자체적으로 처리하지는 못합니다. 따라서 표준 파이프라인(Standard pipelines)에서는 언어 모델(language model)로 텍스트를 임베딩(embed)한 후, 결과 벡터를 PCA(주성분 분석)를 통해 소수의 스칼라 피처(scalar features)로 압축하여 TabPFN에 입력합니다. 이는 정보 병목 현상(information bottleneck)을 야기합니다. 즉, 대부분의 임베딩 차원이 버려지며, 압축된 표현은 다시 TabPFN의 피처 인코더(feature encoder)에 의해 확장되어야 합니다. 엔드투엔드(End-to-end) 대안 방식은 PCA를 피할 수 있지만, 텍스트 셀(text cells)을 포함하는 방대한 양의 사전 학습(pretraining) 데이터가 필요하며, 대량의 합성 데이터(synthetic data)로 사전 학습된 정형 데이터 파운데이션 모델에 비해 일반적으로 성능이 떨어집니다. LLaVA(vision-to-LLM token projection)와 같은 모달리티 정렬(modality-alignment) 방식 및 TableGPT 스타일의 시스템(table-to-LLM token projection)에서 영감을 받아, 우리는 TabPFN Text Adapter(text-to-TFM token projection)를 소개합니다. 우리는 문장 인코더(sentence encoder)와 TabPFN을 모두 동결(freeze)하고, 텍스트 임베딩을 TabPFN의 임베딩 공간 내 짧은 토큰 시퀀스(sequence of tokens)로 매핑하는 경량 어댑터(lightweight adapter)만을 학습시킵니다. 이러한 설계는 PCA 병목 현상을 제거하고, TabPFN의 수치적 강점을 보존하며, 엔드투엔드 텍스트-정형 데이터 파이프라인(text-tabular pipelines)보다 학습 효율이 더 높습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TabPFN을 위한 텍스트 인코더 사전 학습(Pretraining)을 향하여

요약

핵심 포인트

댓글