arXiv논문2026. 06. 19. 11:02

해석 가능성을 위한 합성 데이터 모델로서의 임계 퍼콜레이션 (Critical Percolation)

요약

신경망의 해석 가능성을 평가하기 위해 자연 데이터의 계층적 구조를 모사한 '임계 퍼콜레이션' 기반 합성 데이터셋을 제안합니다. 이 모델은 멱법칙과 프랙탈 구조를 통해 현실적인 데이터 특성을 제공하며, 분석적 다루기 쉬움과 선형 시간 알고리즘을 특징으로 합니다.

핵심 포인트

자연 데이터의 계층적/다중 스케일 구조를 반영하는 합성 데이터 모델 제안
임계 퍼콜레이션을 활용해 멱법칙과 프랙탈 특성을 가진 데이터 생성
분석적 다루기 쉬움(analytically tractable)과 효율적인 샘플링 알고리즘 제공
신경망 활성화로부터 실제 잠재 변수를 선형적으로 디코딩 가능함을 입증

신경망은 자연 데이터의 계층적이고 다중 스케일적인 구조를 반영하는 특징(features)을 학습합니다. 해석 가능성(interpretability) 방법론을 평가하는 데 사용되는 합성 데이터셋은 일반적으로 이러한 구조가 결여되어 있어, 현실적인 토이 모델(toy models)로서의 가치가 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 고차원 데이터 공간에 임베딩된 임계 평균장 퍼콜레이션 클러스터(critical mean-field percolation clusters) 상에 정의된 계층적 함수들로 구성된 합성 데이터셋 제품군을 소개합니다. 퍼콜레이션 데이터는 멱법칙(power-law) 크기 분포를 가진 희소하고 저차원적인 프랙탈 클러스터(fractal clusters)로 구성됩니다. 분류 체계적 계층 구조(taxonomic hierarchy)를 모델링하는 잠재 변수(latent variables)가 각 데이터 포인트의 타겟 값을 생성합니다. 이 데이터 모델은 알려진 임계 지수(critical exponents)를 통해 분석적으로 다루기 쉬우며(analytically tractable), 하이퍼파라미터 튜닝 없이도 그 특성을 고정할 수 있습니다. 우리는 퍼콜레이션 클러스터, 랜덤 트리(random trees), 그리고 가산 합병(additive coalescence) 사이의 매핑을 활용하여, 랜덤 트리와 그 계층적 잠재 분해(hierarchical latent decomposition)를 공동으로 샘플링하는 거의 선형 시간(almost linear-time) 알고리즘을 제안하며, 이를 통해 임의의 규모에서 데이터 생성을 가능하게 합니다. 프로빙 실험(probing experiments)을 통해, 우리는 모델의 실제 잠재 변수(ground-truth latent variables)가 신경망 활성화(neural network activations)로부터 선형적으로 디코딩될 수 있음을 발견했습니다. 종합적으로 희소성(sparsity), 자기 유사성(self-similarity), 멱법칙 통계(power-law statistics), 그리고 분석적 다루기 쉬움(analytical tractability)은 임계 퍼콜레이션을 해석 가능성 연구를 위한 원칙적인 테스트베드(testbed)로 만듭니다.

AI 자동 생성 콘텐츠

원문 바로가기

해석 가능성을 위한 합성 데이터 모델로서의 임계 퍼콜레이션 (Critical Percolation)

요약

핵심 포인트

댓글