본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 12:02

LUCoS: 정형 데이터 파운데이션 모델을 위한 잠재적 비지도 컨텍스트 선택

요약

정형 데이터 파운데이션 모델(TFM)의 성능을 높이기 위해 라벨 없이도 효과적인 컨텍스트를 선택하는 LUCoS 방법론을 제안합니다. 원본 데이터 공간 대신 비지도 사전 학습 네트워크의 잠재 기하학을 활용하여 데이터의 대표성을 확보합니다.

핵심 포인트

  • 라벨이 부족한 정형 데이터 학습에서 컨텍스트 선택의 중요성 강조
  • 원본 피처 공간 대신 잠재 기하학(Latent Geometry) 기반의 선택 방식 제안
  • LUCoS는 OpenML-CC18 데이터셋 평가에서 주요 지표 1위 달성
  • 예산 규모에 따라 커버리지와 표현 공간의 역할이 변화함

어떤 인스턴스(instance)에 라벨을 붙일지 선택하는 것은 라벨이 부족한 정형 데이터 학습(low-label tabular learning)에서 핵심적인 과제입니다. TabPFN과 같은 최근의 정형 데이터 파운데이션 모델(Tabular Foundation Models, TFM)에서는 컨텍스트 선택(context selection)이 예측 성능을 직접적으로 결정합니다. 지도 학습 오라클(Supervised oracle) 실험에 따르면, 신중하게 선택된 라벨링된 컨텍스트 세트는 동일한 라벨링 예산(labeling budget) 하에서 무작위 선택(random selection)보다 훨씬 뛰어난 성능을 보일 수 있습니다. 그러나 라벨을 사용할 수 없는 상태에서 인스턴스를 먼저 선택해야 하는 콜드 스타트(cold-start) 설정은 TFM 문헌에서 거의 주목받지 못했습니다.

이 문제는 근본적으로 기하학적(geometric)입니다. 시각(vision) 및 언어(language) 분야에서 파운데이션 모델은 단순한 기하학적 선택 방법이 효과적인 임베딩 공간(embedding spaces)을 유도합니다. 반면, 정형 데이터 인스턴스 선택은 지금까지 주로 자연스러운 메트릭(metric)이 결여된 원래의 정형 데이터 공간(original tabular space)에서 수행되어 왔습니다. 이질적인 유형(heterogeneous types), 혼합된 스케일(mixed scales), 그리고 비선형 상호작용(nonlinear interactions)은 원본 공간의 거리(raw-space distances)를 컨텍스트 구축에 신뢰할 수 없게 만들며, 예산이 증가함에 따라 원본 공간에서의 선택은 대부분의 데이터셋에서 무작위 선택보다 낮은 성능을 보입니다.

우리는 원본 피처 기하학(raw-feature geometry)을 비지도 사전 학습 네트워크(unsupervised Prior-Fitted Network, PFN)의 임베딩에 의해 유도된 잠재 기하학(latent geometry)으로 대체하고, 대표적인 메도이드(medoids)를 컨텍스트로 선택하는 LUCoS(Latent Unsupervised Context Selection)를 제안합니다. 6개의 낮은 라벨 예산에 걸쳐 67개의 OpenML-CC18 데이터셋으로 평가한 결과, LUCoS는 평균 AUC, ACC, F1에서 1위를 차지했으며, 이러한 결론은 지표 및 데이터셋 수준의 강건성(robustness) 확인을 통해서도 안정적으로 유지되었습니다. 이득 분해(gain decomposition)를 통해 단순한 메커니즘이 밝혀졌습니다. 가장 작은 예산에서는 커버리지(coverage)를 강제하는 것에서 주요 이점이 발생하며, 예산이 증가함에 따라 커버리지가 측정되는 표현 공간(representation space)이 결정적인 요인이 됩니다. LUCoS는 원본 피처 공간 선택의 실패를 완화하며, 신뢰할 수 있는 비지도 컨텍스트 선택은 선택기의 정교함보다는 의미 있는 표현 기하학(representation geometry) 내에서 대표성을 정의하는 것에 더 달려 있음을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0