BeyondArena: 표 형식 파운데이션 모델 (Tabular Foundation Models)은 실제로 범용적인가?

IID, 시계열 (temporal), 그리고 그룹화된 (grouped) 태스크에 걸친 142개 데이터셋의 새로운 벤치마크가 진실을 밝혀냅니다. 표 형식 FM (Tabular FMs)은 규모가 작은 동질적 데이터 (small homogeneous data)에서는 승리합니다. 하지만 트리 기반 (Tree-based) 모델과 딥러닝 (deep learning) 모델은 여전히 어려운 과제들을 지배하고 있습니다.

논문 (Paper):
https
://paperswithcode.co/paper/2606.304
10
…
데이터셋 (Dataset):
https
://huggingface.co/datasets/TabArena/BeyondArena
…
코드 (Code):
https
://github.com/TabArena/data-foundry
…
142개 데이터셋 전체와 Data Foundry 큐레이션 툴킷은 오픈 소스입니다. 이제 당신의 모델을 진정으로 벤치마킹할 시간입니다.

Microsoft가 방금 Hugging Face에 새로운 GUI 에이전트를 출시했습니다.

Sico-Evolution의 태스크 성공률 (Task Success Rate)이 39.8%에서 82.9%로 급증했습니다.

GPT-5.4, Claude Opus 4.6, 그리고 Claude Opus 4.7을 능가합니다.

이 모든 것은 4B 파라미터 모델로부터 이루어집니다.

Insights

BeyondArena: 표 형식 파운데이션 모델 (Tabular Foundation Models)은 실제로 범용적인가?

요약

핵심 포인트

댓글

Correctover Ibex: 변조 방지 에이전트 검증(Tamper-Evident Agent Verification)의 실현

파산 위기에 처한 전 WH Smith 매장들

Astera Labs 주식, 시장 최고 목표가 경신. 분석가들 2028년까지 AI 지출에 대해 자신감 표명

Genpact Limited (G)는 지금 매수하기 좋은 주식인가?

파산 위기에 처한 전 WH Smith 매장들

Astera Labs 주식, 시장 최고 목표가 경신. 분석가들 2028년까지 AI 지출에 대해 자신감 표명

Genpact Limited (G)는 지금 매수하기 좋은 주식인가?