본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 11:04

MulTaBench: 텍스트 및 이미지를 활용한 멀티모달 테이블 학습 벤치마킹

요약

본 기사는 기존 테이블 기반 파운데이션 모델이 겪는 한계점, 즉 비정형 모달리티(텍스트 및 이미지)에 대한 네이티브 지원 부족 문제를 지적합니다. 특히 기존 멀티모달 테이블 학습 벤치마크가 단순한 모달리티의 동시 발생에만 초점을 맞추어 태스크별 조정의 이점을 가리는 경향을 비판합니다. 이를 해결하기 위해, 공동 모델링과 타겟 인식 표현을 통합하는 새로운 아키텍처를 제안하며 멀티모달 테이블 파운데이션 모델 개발의 방향성을 제시합니다.

핵심 포인트

  • 테이블 기반 파운데이션 모델은 구조화 데이터 학습에 강점을 보이지만, 텍스트/이미지 같은 비정형 모달리티 지원이 부족하다.
  • 기존 멀티모달 테이블 벤치마크는 단순한 모달리티 동시 발생에 초점을 맞춰 태스크별 조정의 이점을 제대로 측정하지 못한다.
  • 새로운 접근 방식은 공동 모델링(joint modeling)과 타겟 인식 표현(target-aware representations)을 통합하여 성능 향상을 목표로 한다.
  • 이 연구는 멀티모달 테이블 파운데이션 모델 개발에 필요한 새로운 아키텍처의 기반을 마련한다.

테이블 기반 파운데이션 모델(Foundation Models)은 최근 사전 학습(pretraining)을 활용하여 수치형 및 범주형 구조화 데이터의 일반화 가능한 표현을 학습함으로써 지도 학습(supervised learning) 분야에서 최신 기술 수준(state of the art)을 확립했습니다. 하지만 이 모델들은 텍스트나 이미지와 같은 비정형 모달리티에 대한 네이티브 지원이 부족하며, 이를 처리하기 위해 고정된 사전 학습 임베딩(frozen, pretrained embeddings)에 의존합니다. 기존의 멀티모달 테이블 학습 벤치마크에서 우리는 임베딩을 태스크에 맞게 조정하는 것(tuning the embeddings to the task)이 성능을 향상시킨다는 것을 보여줍니다. 하지만 기존 벤치마크들은 종종 모달리티들의 단순한 동시 발생(mere co-occurrence of modalities)에 초점을 맞추는 경향이 있으며, 이는 데이터셋 전반에 걸쳐 높은 분산(high variance)을 야기하고 태스크별 조정의 이점(benefits of task-specific tuning)을 가립니다. 이러한 격차를 해소하기 위해, 우리는

이는 공동 모델링(joint modeling)과 타겟 인식 표현(target-aware representations)을 통합하는 새로운 아키텍처의 연구를 가능하게 하여, 새로운 멀티모달 테이블 파운데이션 모델(Multimodal Tabular Foundation Models) 개발의 길을 열어줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0