arXiv논문2026. 06. 30. 10:53

통계적으로는 구별 불가능하나 운영상으로는 구별됨: 표 형식 파운데이션 모델 (Tabular Foundation Models)을 위한 공식적 장벽

요약

표 형식 파운데이션 모델이 시스템의 규칙을 모를 때 발생하는 '운영적 장벽'을 정의하고 검증합니다. 통계적으로는 구별이 불가능하더라도 규칙 기반의 감사 없이는 모델이 데이터의 합법성을 식별할 수 없음을 증명했습니다.

핵심 포인트

운영 튜링 테스트(OTT)를 통해 표 형식 데이터의 식별 가능성 한계 정의
통계적 유사성에도 불구하고 규칙 부재 시 분류 정확도가 0.5 수준으로 제한됨
LLM(GPT-5.5 등)도 운영적 근거 없이는 표 데이터의 규칙 위반을 식별하지 못함
데이터 규모나 특징 확장만으로는 해결할 수 없는 구조적 식별성 문제임을 명시

표 형식 파운데이션 모델 (Tabular foundation models)은 시스템을 지배하는 규칙에 접근하지 않고서는 실행 중인 시스템에 의해 생성된 데이터에 대해 추론할 수 없습니다. 우리는 이 문장을 검증 가능하게 만듭니다. extit{운영 튜링 테스트 (Operational Turing Test, OTT)}는 1방향 및 2방향 컬럼-값 주변 확률 (column-value marginals)이 총 변동 (total variation) $<0.02$ 이내로 일치하는 합법적 상태와 규칙 위반 데이터베이스 상태 쌍을 구성합니다. 이후 Le~~Cam의 보조정리 (Le~~Cam's lemma)를 통해 값만을 사용하는 모든 분류기 (classifier)의 베이즈 오차 (Bayes error)를 $\geq0.49$로 제한합니다. 세 가지 값 전용 베이스라인 (XGBoost, TabICL, TabPFN)은 정확히 이 경계에 도달했습니다 (정확도 $0.50$, 사전 등록된 두 가지 단측 검정 (two one-sided tests, TOST) $p<0.002$). 원시 행 수준 (raw row-level) 접근은 도움이 되지 않았으며, 관계적 값 일관성 (relational value consistency)을 노출하는 것이 격차의 대부분을 해소함을 보여주었습니다. 오직 7개의 실행 가능한 규칙 유도 감사 (rule-derived audits)를 입력받은 분류기만이 $1.00$의 분류 정확도에 도달했습니다. 매칭된 100개 상태의 프런티어 대규모 언어 모델 (Large Language Model, LLM) 실행 3회에서, 스키마 (schema), 트리거 소스 (trigger source), 규칙 테이블 (rule tables), 상태 파일 (state files)이 주어진 모델들은 합법적 상태 중 최대 $2/50$만을 합법 (LEGAL)으로 분류했습니다. GPT-5.5는 더 높은 추론 노력과 구조화된 질의 언어 (Structured Query Language, SQL) 실행기가 있음에도 불구하고 합법적 상태를 $0/50$으로 수용했습니다. 이러한 접근 사다리 (access-ladder) 패턴은 구조적으로 구별되는 규칙군을 가진 두 번째 스키마 (은행 원장: 행 간 잔액, 누적 집계)에서도 나타납니다. 이 장벽은 용량 (capacity)의 문제가 아니라 식별 가능성 (identifiability)의 문제입니다. 규모 (scale), 데이터, 그리고 더 풍부한 특징 (features)만으로는 운영적 근거 (operational grounding) 없이는 이 장벽을 넘을 수 없습니다.

AI 자동 생성 콘텐츠

원문 바로가기

통계적으로는 구별 불가능하나 운영상으로는 구별됨: 표 형식 파운데이션 모델 (Tabular Foundation Models)을 위한 공식적 장벽

요약

핵심 포인트

댓글