TDGT: 적응형 GPU 가속 베이지안 혼합 모델, 확산 기반 모델 및 잠재 공간 생성 모델링을 지원하는 정형 데이터 생성 툴킷
요약
정형 데이터 생성을 위한 웹 기반 툴킷인 TDGT를 소개합니다. ABMS 알고리즘과 VAE-ABMS 하이브리드 아키텍처를 통해 수동 설정 없이 고충실도 합성 데이터를 생성하며, GPU 가속을 지원합니다.
핵심 포인트
- ABMS 알고리즘을 통한 최적의 혼합 구성 요소 수 자율 결정
- VAE와 베이지안 혼합 합성을 결합한 VAE-ABMS 아키텍처 제안
- CUDA 기반 GPU 가속을 통한 대규모 데이터 처리 지원
- 11가지 통계 지표 및 개인정보 보호 위험 지표를 통한 충실도 평가
개인정보를 보호하는 데이터 공유에 대한 수요가 증가함에 따라, 합성 데이터 생성 (synthetic data generation)은 책임감 있는 AI 워크플로우의 핵심 요소로 자리 잡았습니다. 생성 모델링 (generative modeling)의 눈부신 발전에도 불구하고, 기존 솔루션들은 통합된 웹 기반 툴킷 내에서 적응형 생성 전략, 다중 지표 평가 및 접근 가능한 엔드 투 엔드 (end-to-end) 생성기를 통합하는 데 종종 한계를 보입니다. 본 연구에서는 합성 정형 데이터 생성 및 충실도 평가를 위한 웹 기반 툴킷인 TDGT (Tabular Data Generation Toolkit)를 소개합니다. TDGT는 반복적인 클러스터 품질 최적화를 통해 최적의 혼합 구성 요소 (mixture components) 수를 자율적으로 결정하여 수동 하이퍼파라미터 설정의 필요성을 제거하는 새로운 알고리즘인 ABMS (Adaptive Bayesian Mixture Synthesizer)를 도입합니다. ABMS를 기반으로, 우리는 변분 오토인코더 (Variational Autoencoder, VAE) 기반의 잠재 공간 (latent space) 학습과 적응형 베이지안 혼합 합성을 결합하여 복잡하고 비선형적인 정형 데이터 분포의 고충실도 생성을 가능하게 하는 하이브리드 아키텍처인 VAE-ABMS를 추가로 제안합니다. 대규모 시나리오를 위해, TDGT는 CUDA 기반 k-means 클러스터링 및 가우시안 혼합 피팅 (Gaussian mixture fitting)을 활용하는 GPU 가속 ABMS 변형을 제공합니다. 합성 데이터의 충실도는 분포 발산 (distributional divergence), 구조적 상관관계 (structural correlation), 샘플 수준 유사성 (sample-level similarity)을 아우르는 11가지 통계적 충실도 지표를 통해 평가되며, k-익명성 (k-anonymity) 점수 및 공개율 (disclosure rate) 추정을 포함한 개인정보 보호 위험 지표로 보완됩니다. 이 웹 기반 툴킷은 대화형 Plotly 기반 시각화를 갖춘 실시간 스트리밍 인터페이스를 지원합니다. TDGT는 의료, 사회경제적 모델링 및 사이버 보안 도메인의 데이터셋을 통해 평가되었으며, 이질적인 피처 (feature) 유형과 데이터 규모 전반에 걸쳐 일관된 생성 충실도와 통계적 일관성을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기