Google의 TabFM이 신용 데이터에서 GBM을 이길 수 있을까? 공개 데이터를 통한 테스트

원문은 han-co.com에 게시되었습니다 · 코드: GitHub · 저의 Credit & Finance Data Science 시리즈 중 "Review" 섹션의 일부입니다. (원본에는 손으로 그린 다이어그램이 포함되어 있으나, 아래 수치는 동일합니다.)

이 글은 시리즈의 "Review" 섹션에 해당하는 첫 번째 글입니다. 여기서는 새로 출시된 도구를 가져와 실무자의 관점에서 그것이 신용 업무(credit work)에 실제로 유용한지 측정합니다.

Google은 최근 TabFM을 출시했습니다. 테이블 데이터를 있는 그대로 입력하면 별도의 학습(training)이나 튜닝(tuning) 없이 예측을 수행하며, "제로샷(zero-shot) 성능이 잘 튜닝된 GBM(Gradient Boosting Machine)조차 능가한다"고 주장합니다. 만약 이것이 GBM이 수년간 지배해 온 영역인 신용 리스크(credit risk) 분야에서도 실제로 통한다면, 이는 매우 중요한 사건입니다. 그래서 저는 공개된 손실 데이터(loss data)를 사용하여 정교하게 구축된 GBM과 TabFM을 맞붙여 보았습니다. 결론부터 말씀드리자면, 제가 실행한 조건하에서는 잘 튜닝된 GBM이 약간 앞섰습니다. 하지만 이는 논문에서 승리를 주장했던 것과 동일한 조건에서의 정면 승부가 아니었기에 승자를 선언할 수는 없습니다. 더 중요한 핵심 발견은, TabFM이 피처 엔지니어링(feature engineering)이나 튜닝 없이도 그 최상급 모델의 성능에 근접했다는 점입니다.

TabFM이란 무엇인가

TabFM은 Google이 2026년 6월 말에 출시한 정형 데이터(tabular data)를 위한 파운데이션 모델(foundation model)입니다. 핵심 아이디어는 제로샷(zero-shot)입니다. 데이터셋마다 재학습하거나, 하이퍼파라미터(hyperparameters)를 튜닝하거나, 피처를 엔지니어링하지 않습니다. 대신 학습 데이터를 하나의 컨텍스트(context)로 읽어 들여, 단 한 번의 순전파(forward pass)로 예측을 수행합니다. 이를 인컨텍스트 러닝(in-context learning)이라고 부릅니다. GPT가 프롬프트(prompt) 내의 몇 가지 예시를 받아 답변하는 것과 마찬가지로, TabFM은 테이블 전체를 일종의 프롬프트로 받아 즉석에서 답변을 내놓습니다.

이것을 가능하게 하는 것은 사전에 수행된 방대한 양의 사전 학습 (pretraining)입니다. 하지만 이미지나 텍스트와 달리 공개된 테이블 데이터 (tabular data)는 그만큼 많지 않기 때문에, Google은 구조적 인과 모델 (SCMs)을 사용하여 수억 개의 테이블을 합성하고 이를 통해 사전 학습을 진행했습니다. 학습된 아키텍처 (architecture)는 세 부분으로 구성됩니다. 특징 (features) 간의 관계를 포착하기 위해 행 (rows)과 열 (columns)을 번갈아 가며 어텐션 (attention)을 수행하고, 각 행을 밀집 벡터 (dense vector)로 압축한 다음, 인컨텍스트 러닝 (in-context learning)을 통해 그 위에서 예측을 수행합니다. 이를 테이블 파운데이션 모델 (tabular foundation model)에 대한 초기 시도였던 TabPFN 라인의 진화된 형태로 생각하면 됩니다.

강점은 명확합니다. 특징 공학 (feature engineering)도, 하이퍼파라미터 튜닝 (hyperparameter tuning)도 필요 없습니다. 다시 말해, 실제로 GBM에 쏟아붓는 노력이 제로(0)로 줄어듭니다. 그리고 Google은 TabArena 벤치마크에서 이 제로샷 (zero-shot) 모델이 ELO 점수 기준으로 정교하게 튜닝된 지도 학습 (supervised) 모델들, 특히 GBM 계열 모델들보다 높은 순위를 기록했다고 보고했습니다. 이 벤치마크는 700개에서 150,000개의 샘플에 이르는 38개의 분류 (classification) 및 13개의 회귀 (regression) 데이터셋을 수집합니다. 모델은 현재 Hugging Face와 GitHub에 공개되어 있으며, Google은 몇 주 내에 BigQuery에 탑재되어 단 한 줄의 SQL (AI.PREDICT)로 호출할 수 있게 될 것이라고 밝혔습니다.

실험 이유: 신용 손실에 사용할 수 있는가

저에게는 한 가지 의문이 있었습니다. 일반적인 벤치마크에서 GBM을 이긴다는 이 모델이, 신용 손실 (credit losses)에서도 동일한 결과를 낼 수 있을까?

이전 글에서 저는 테이블 형태의 신용 데이터에서는 딥러닝 (deep learning)이 아니라 트리 기반 부스팅 (tree-based boosting)이 승리한다고 결론지었습니다. TabFM은 바로 그 결론을 뒤집겠다고 주장하므로, 다시 확인해 볼 가치가 있었습니다. 그리고 신용 데이터는 일반적인 벤치마크와 다릅니다. 채무 불이행 (default)은 드문 사건이며, 순위뿐만 아니라 확률도 정확해야 하고, 결정 뒤에 숨겨진 이유를 설명할 수 있어야 합니다. 일반 데이터에서 승리한다고 해서 신용 데이터에서의 승리가 보장되지는 않습니다. 그래서 저는 공개 데이터를 통해 제로샷 TabFM이 신용 데이터에서도 잘 튜닝된 GBM을 이기는지 직접 확인했습니다.

데이터 및 모델

데이터는 UCI의 대만 신용카드 연체 데이터셋(Taiwan credit-card default dataset)입니다. 30,000명의 데이터, 23개의 피처(features), 22%의 연체율을 가지고 있습니다. 주요 피처는 지난 6개월간의 연체 상태와 청구 및 결제 금액이며, 기존 문헌에서는 표준 모델들이 AUC 0.77에서 0.78 부근에서 정체되는 경향을 보이는 신호 제한적 데이터셋(signal-limited dataset)으로 알려져 있습니다.

공정한 비교의 핵심은 모델과 피처를 분리하는 것입니다. "피처 엔지니어링이 적용된 GBM"과 "가공되지 않은(raw) TabFM"을 직접 비교하면, 격차가 발생하더라도 그것이 모델 때문인지 피처 때문인지 알 수 없습니다. 그래서 저는 여러 베이스라인(baselines)을 나란히 배치했습니다.

이름	설명
GBM raw	LightGBM, 피처 없음, 튜닝 없음 (최소한의 노력)
...

GBM 계열 모델에는 연체 역학(delinquency dynamics)과 같은 피처가 추가되었고 Optuna로 튜닝되었습니다. TabFM은 별도의 튜닝 없이 기본 상태(out of the box)로 두었습니다. 모든 모델은 확률이 실제 연체율과 일치하도록 자연스러운 비율(natural rate)로 학습시켰습니다. 평가 지표로는 신용 요구 사항에 따라 변별력(discrimination: ROC-AUC, PR-AUC, KS)과 교정(calibration: Brier, ECE)을 모두 살펴보았습니다. 연체율이 22%이므로 불균형이 극심하지는 않지만, PR-AUC를 통해 희귀한 연체 사례를 얼마나 잘 잡아내는지도 확인했습니다. 검증은 층화 5-겹 교차 검증(stratified 5-fold)으로 수행했습니다.

결과

실험군	ROC-AUC	PR-AUC	KS	ECE ↓	시간
GBM tuned (LightGBM)	0.789	0.566	0.443	0.010	548s
...

여기서 읽어낼 수 있는 세 가지 사실이 있습니다.

첫째, 잘 튜닝된 GBM(0.789)이 TabFM 제로샷(0.785)을 근소하게 앞섭니다. 세 가지 트리 모델 모두 TabFM보다 위에 위치하며, PR-AUC에서도 순위는 동일합니다(TabFM 0.558, 튜닝된 GBM 0.566). 격차는 0.4%p로, 교차 검증 표준 편차(0.006) 범위 내에 있으므로 통계적으로는 거의 무승부에 가깝지만, 방향성은 일관되게 GBM이 우위에 있습니다. "제로샷이 튜닝된 GBM을 이긴다"는 이 데이터에서는 성립하지 않았습니다.

둘째, 아무런 노력 없이(no-effort) 대결했을 때는 이야기가 달라집니다. TabFM 제로샷(zero-shot) 성능은 0.785로, 피처(feature) 엔지니어링이나 튜닝 없이도 원시(raw) GBM의 0.779를 넘어섭니다. 빠른 베이스라인(baseline)으로서 진정으로 매력적입니다.

셋째, 보정(calibration) 성능 또한 대등합니다. 자연스러운 비율로 학습된 트리 모델들 역시 잘 매칭된 확률(ECE 0.010)을 생성하며, TabFM은 0.022로 약간 뒤처집니다. 어느 쪽도 크게 나쁘지 않습니다.

그리고 세 가지 부스터(boosters)는 0.7885에서 0.7891 사이로 수렴합니다. 이는 모델을 변경하고 피처를 추가하며 튜닝을 해도 성능이 더 올라가지 않는 이 데이터의 한계치(ceiling)가 약 0.79임을 의미합니다. 어느 쪽도 이 수치를 넘어서지 못했습니다.

요약하자면: 적어도 이 실험에서는 TabFM이 잘 구축된 GBM을 이기지는 못했지만, 아무런 노력 없이도 그 수치에 근접했습니다. 그리고 실험 조건이 동일하지 않았다는 점을 반드시 유념해야 합니다.

이 실험의 한계

이 결과는 오직 몇 가지 조건 하에서만 유효합니다.

단일 데이터셋입니다. 대만의 신용카드 데이터셋 하나만으로는 일반화(generalization)를 보장할 수 없습니다. 다른 손실(loss) 데이터에서는 순위가 바뀔 수 있습니다.
신호(signal)가 제한적입니다. 23개의 피처와 0.79라는 한계치 때문에, 애초에 모델이 앞서 나갈 여지가 많지 않았습니다. 피처가 많고 신호가 풍부한 데이터에서는 결과가 다르게 나올 수 있습니다.
단일 시드(seed)를 사용했으며, 시간 외 검증(out-of-time validation)을 수행할 수 없었습니다. 신뢰할 수 있는 시간 컬럼이 없어서 무작위 층화 추출(random stratification)로 분할했지만, 실제 신용 모델은 시간 기준으로 분할하여 더욱 엄격하게 검증됩니다.
TabFM은 8GB GPU에서 실행되었습니다. 이로 인해 아래 모델 한계 섹션에 언급된 앙상블(ensemble) 설정을 제대로 실행할 수 없었으므로, 위 표의 TabFM 수치는 하한선(lower bound)으로 해석해야 합니다.

모델 자체의 한계

실험은 차치하고라도, TabFM을 실제 업무에 적용하려 할 때 맞닥뜨리게 되는 문제들은 다음과 같습니다.

블랙박스(Black box)입니다. 파운데이션 모델(Foundation model)이기 때문에 계수(Coefficient)가 없으며 명확한 규칙도 없습니다. 결정 이유를 공개하고 규제 기관에 설명해야 하는 신용 심사(Credit underwriting) 분야에서는 있는 그대로 사용하기 어렵습니다. SHAP과 같은 사후 설명(Post-hoc explanation) 방식을 덧붙일 수는 있지만, 모델 자체가 스코어카드(Scorecard)처럼 설명 그 자체가 되지는 않습니다.
고성능 GPU가 필요합니다. 가중치(Weights)만 6.5GB에 달하며, GPU 없이는 추론(Inference) 속도가 10배 이상 느려집니다. 또한 논문에 설정된 프리셋(앙상블, 대규모 컨텍스트)을 제대로 실행하려면 16GB 이상의 GPU가 필요합니다. 이는 단일 CPU에서도 잘 작동하는 GBM과 극명한 대조를 이룹니다.
데이터 및 피처(Feature) 크기에 한계가 있습니다. 인컨텍스트 러닝(In-context learning)은 전체 학습 세트를 프롬프트처럼 읽어들이지만, 어텐션(Attention)은 컨텍스트의 제곱에 비례하여 증가합니다. 따라서 수백만 행에 달하는 신용 데이터나 피처가 매우 많은 데이터를 있는 그대로 로드하기는 어렵습니다. 이것이 바로 이 모델 계열이 애초에 소규모에서 중규모 크기의 테이블을 위해 구축된 이유입니다.
추론(Inference) 부하가 큽니다. 저장된 GBM은 한 줄의 코드로 점수를 산출하지만, TabFM은 예측할 때마다 학습 데이터를 매번 다시 읽습니다. 대량의 실시간 스코어링 환경에서는 이러한 비용이 부담이 됩니다.
아직 초기 단계입니다. 막 출시된 모델인 만큼 실무에서의 트랙 레코드(Track record)가 없으며, 규제 기관의 승인을 받은 사례도 없습니다.

다음 단계, 그리고 여러분의 차례

TabFM은 현재 Hugging Face에서 사용할 수 있으며, 몇 주 내로 BigQuery에서 단 한 줄의 SQL로 호출할 수 있게 될 것입니다. 진입 장벽이 그만큼 낮아지므로, 고성능 GPU를 보유하고 있거나 BigQuery 통합 기능이 열린다면 앙상블 프리셋을 제대로 실행하여 더 큰 데이터로 다시 측정해 볼 가치가 있습니다. 저는 특히 소규모 샘플 데이터, 피처가 풍부한 데이터, 그리고 시간 기반 검증(Time-based validation)에서 모델이 어떤 성능을 보이는지 매우 궁금합니다. 결국 이 글의 결론은 대만 신용카드 데이터 한 차례를 다룬 이야기일 뿐이니까요.

제 결론은 다음과 같습니다. 이번 실험에서는 GBM (Gradient Boosting Machine)이 약간 앞섰지만, 논문에서 승리를 주장했던 조건(대규모의 다양한 데이터, 앙상블 프리셋, 충분한 GPU) 하에서 경쟁한 것은 아니기에, TabFM이 "이길 수 없다"라고 단정 지을 수는 없습니다. 확실한 점은 이것입니다: TabFM은 피처 (feature)나 튜닝 (tuning) 없이도 최고 성능과 0.4pp 이내의 차이로 도달하는 매우 빠른 베이스라인 (baseline)이라는 것입니다. 프로토타이핑 (prototyping)이나 첫 번째 베이스라인으로는 현재 매우 매력적이며, 최고의 성능, 정확한 확률, 그리고 설명 가능성 (explanations)이 필요한 프로덕션 (production) 신용 모델의 경우에는 잘 튜닝된 GBM이 여전히 현재로서는 안전한 선택입니다. 트리 기반 (tree-based) 모델의 시대가 끝났다고 말하기에는 너무 이르지만, 이제 아무런 노력 없이도 그에 근접하는 강력한 후보가 등장했습니다.

부록: 코드 및 데이터

데이터: UCI Default of Credit Card Clients (Taiwan), 공개 데이터
TabFM 소스: Google Research blog · Hugging Face · GitHub
코드: github.com/HangilKim11/blog-research/tree/main/tabfm-credit
재현성 (Reproducibility): 층화 5-겹 교차 검증 (stratified 5-fold)

_저는 신용 및 금융 데이터 사이언스에 관한 블로그인 han-co.com을 실무의 언어로 작성하고 있습니다. 새로운 게시물은 이메일로 받아보실 수 있습니다: https://han-co.com/en/blog/
_

Insights