arXiv논문2026. 06. 01. 11:04

TabCausal: 정형 데이터 인과 발견을 위한 다양한 인과 환경 기반의 사전 학습

요약

TabCausal은 정형 데이터의 인과 관계를 복원하기 위한 새로운 인과 발견 파운데이션 모델(CDFM)입니다. 다양한 인과 환경을 활용한 광범위한 사전 학습을 통해, 기존 모델의 한계를 극복하고 관측 및 개입 데이터 모두에서 뛰어난 구조 학습 성능을 보여줍니다.

핵심 포인트

다양한 그래프 사전 확률과 노이즈 모델을 활용한 사전 학습 수행
단일 순전파로 인과 그래프를 매핑하는 분할 상환 방식 채택
대규모 합성 및 의미론적 벤치마크에서 기존 베이스라인 상회
개입 증거 하에서 강력한 구조 복원 및 전이 능력 입증

인과 발견 (Causal discovery)은 관측 (observational) 및 개입 (interventional) 데이터로부터 방향성이 있는 인과 관계를 복원하는 것을 목표로 하며, 이는 기계론적 이해와 신뢰할 수 있는 의사결정의 기초를 제공합니다. 인과 발견 파운데이션 모델 (Causal discovery foundation models, CDFMs)은 데이터셋을 단 한 번의 순전파 (forward pass)를 통해 인과 그래프 (causal graph)로 직접 매핑함으로써, 데이터셋마다 수행되는 테스트, 탐색 또는 최적화를 피하고 이 문제를 분할 상환 (amortize)하고자 합니다. 그러나 기존의 CDFMs는 여전히 한계가 있으며, 강력한 전통적 방법론들과 일관되게 일치하지 못하는 경우가 많습니다. 우리는 그 핵심 병목 현상이 인과 사전 학습 (causal pretraining) 태스크가 구성되는 방식에 있다는 것을 발견했습니다. 이러한 관찰을 바탕으로, 우리는 다양한 그래프 사전 확률 (graph priors), 구조적 메커니즘 (structural mechanisms), 노이즈 모델 (noise models), 차원 (dimensions), 샘플 크기 (sample sizes) 및 개입 체제 (intervention regimes)에 걸쳐 광범위한 인과 사전 학습을 통해 훈련된 데이터 주도형 CDFM인 TabCausal을 제안합니다. 동적 태스크 구성 전략은 이러한 인과 환경들을 다양한 발견 태스크로 조합하여, 관측 데이터 및 혼합 개입 (mixed-interventional) 데이터로부터 더 전이 가능한 구조 학습 (structural learning)을 가능하게 합니다. 대규모 합성 벤치마크 (synthetic benchmarks)에서 TabCausal은 다양한 인과 발견 베이스라인 세트보다 더 나은 매크로 평균 (macro-averaged) 성능을 달성합니다. 추상적인 합성 생성기와 현실적인 인과 추론 시나리오 사이의 간극을 더욱 좁히기 위해, 우리는 프로토콜 가이드 및 LLM 검증을 거친 의미론적 인과 환경 (semantic causal environment) 벤치마크를 도입합니다. 여기서 도메인에 기반한 구조적 인과 모델 (Structural Causal Models, SCMs)은 분포 외 (out-of-distribution) 분석을 위한 해석 가능한 관측 및 개입 데이터셋을 생성합니다. 합성 및 의미론적 환경 모두에서 TabCausal은 특히 개입 증거 (interventional evidence) 하에서 강력한 구조 복원 능력을 보여주며, 이는 광범위한 인과 사전 학습이 전이 가능한 분할 상환 인과 발견 (amortized causal discovery)을 위한 핵심 요소임을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TabCausal: 정형 데이터 인과 발견을 위한 다양한 인과 환경 기반의 사전 학습

요약

핵심 포인트

댓글