본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 19. 11:02

해석 가능성을 위한 합성 데이터 모델로서의 임계 퍼콜레이션 (Critical Percolation)

요약

신경망의 해석 가능성을 평가하기 위해 자연 데이터의 계층적 구조를 모사한 '임계 퍼콜레이션' 기반 합성 데이터셋을 제안합니다. 이 모델은 멱법칙과 프랙탈 구조를 통해 현실적인 데이터 특성을 제공하며, 분석적 다루기 쉬움과 선형 시간 알고리즘을 특징으로 합니다.

핵심 포인트

  • 자연 데이터의 계층적/다중 스케일 구조를 반영하는 합성 데이터 모델 제안
  • 임계 퍼콜레이션을 활용해 멱법칙과 프랙탈 특성을 가진 데이터 생성
  • 분석적 다루기 쉬움(analytically tractable)과 효율적인 샘플링 알고리즘 제공
  • 신경망 활성화로부터 실제 잠재 변수를 선형적으로 디코딩 가능함을 입증

신경망은 자연 데이터의 계층적이고 다중 스케일적인 구조를 반영하는 특징(features)을 학습합니다. 해석 가능성(interpretability) 방법론을 평가하는 데 사용되는 합성 데이터셋은 일반적으로 이러한 구조가 결여되어 있어, 현실적인 토이 모델(toy models)로서의 가치가 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 고차원 데이터 공간에 임베딩된 임계 평균장 퍼콜레이션 클러스터(critical mean-field percolation clusters) 상에 정의된 계층적 함수들로 구성된 합성 데이터셋 제품군을 소개합니다. 퍼콜레이션 데이터는 멱법칙(power-law) 크기 분포를 가진 희소하고 저차원적인 프랙탈 클러스터(fractal clusters)로 구성됩니다. 분류 체계적 계층 구조(taxonomic hierarchy)를 모델링하는 잠재 변수(latent variables)가 각 데이터 포인트의 타겟 값을 생성합니다. 이 데이터 모델은 알려진 임계 지수(critical exponents)를 통해 분석적으로 다루기 쉬우며(analytically tractable), 하이퍼파라미터 튜닝 없이도 그 특성을 고정할 수 있습니다. 우리는 퍼콜레이션 클러스터, 랜덤 트리(random trees), 그리고 가산 합병(additive coalescence) 사이의 매핑을 활용하여, 랜덤 트리와 그 계층적 잠재 분해(hierarchical latent decomposition)를 공동으로 샘플링하는 거의 선형 시간(almost linear-time) 알고리즘을 제안하며, 이를 통해 임의의 규모에서 데이터 생성을 가능하게 합니다. 프로빙 실험(probing experiments)을 통해, 우리는 모델의 실제 잠재 변수(ground-truth latent variables)가 신경망 활성화(neural network activations)로부터 선형적으로 디코딩될 수 있음을 발견했습니다. 종합적으로 희소성(sparsity), 자기 유사성(self-similarity), 멱법칙 통계(power-law statistics), 그리고 분석적 다루기 쉬움(analytical tractability)은 임계 퍼콜레이션을 해석 가능성 연구를 위한 원칙적인 테스트베드(testbed)로 만듭니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0