dashi: 신뢰할 수 있는 AI 개발 및 배포를 지원하기 위한 데이터셋 변화(Dataset Shift) 특성화용 Python 라이브러리
요약
dashi는 데이터셋 변화(Dataset Shift)를 탐색하고 정량화하기 위해 설계된 오픈 소스 Python 라이브러리입니다. 비지도 학습 기반의 정보 기하학적 접근과 지도 학습 기반의 성능 저하 분석을 통해 AI 모델의 신뢰성과 안전성을 지원합니다.
핵심 포인트
- 데이터셋 변화(Covariate, Prior, Concept shift) 탐색 및 특성화
- 정보 기하학 및 비매개변수적 통계 다양체 활용 비지도 학습 방식 제공
- 모델 성능 저하를 정량화하는 지도 학습 접근 방식 지원
- 헬스케어 사례를 통한 실질적인 데이터 일관성 및 안전성 검증
인공지능 (AI) 생명 주기에서는 견고하고 안전하며 비용 효율적인 AI 개발 및 사용을 위해 기저에 깔린 데이터 역학에 대한 철저한 이해가 필요합니다. 데이터셋 변화 (Dataset shifts)는 훈련 데이터와 테스트 데이터 분포 사이의 변화로 정의됩니다. 시간의 흐름에 따라 발생하거나 (temporal) 서로 다른 사이트 간에 발생하든 (multi-source), 이는 모델 성능을 심각하게 저하시키고 데이터 품질을 해칠 수 있습니다. 이는 특히 헬스케어 AI에서 중요한데, 훈련 및 운영 단계 모두에서 통제되지 않은 변화가 발생할 경우 환자의 안전과 기본권이 심각하게 영향을 받을 수 있기 때문입니다. 공변량 변화 (covariate shift), 사전 변화 (prior shift), 개념 변화 (concept shift)에 대한 이론적 토대는 잘 확립되어 있지만, 이를 분석하기 위한 접근 가능하고 포괄적인 소프트웨어 도구는 부족한 실정입니다. 우리는 데이터셋 변화의 탐색, 정량화 및 특성화를 위해 설계된 오픈 소스 Python 라이브러리인 dashi를 소개합니다. dashi는 이중 접근 방식을 제공합니다. 첫째, 데이터 변동성 특성화 및 분석을 위해 정보 기하학 (information geometry)과 비매개변수적 통계 다양체 (non-parametric statistical manifolds)를 활용하는 비지도 학습 (unsupervised) 접근 방식 (예: 정보 기하학적 시간적 도표 (Information Geometric Temporal plots) 및 Global Probabilistic Deviation, Source Probabilistic Outlyingness와 같은 다중 소스 변동성 지표 (Multi-Source Variability metrics))을 제공합니다. 둘째, 모델 성능 저하를 정량화하고 특성화하는 지도 학습 (supervised) 접근 방식입니다. 비지도 및 지도 학습 접근 방식 모두 사용자가 정의한 시간적 및 도메인/소스 배치 (batches)에 걸쳐 작동합니다. 우리는 임신성 당뇨병, COVID-19, 응급 의료 파견에 관한 세 가지 시뮬레이션 및 실제 헬스케어 AI 사례 연구를 통해 dashi의 유용성을 입증합니다. dashi는 대화형 시각적 분석과 변동성 지표를 제공함으로써 AI 생명 주기의 신뢰성을 지원하며, 데이터 일관성 (data coherence) 및 AI 성능 평가를 통해 견고하고 안전한 머신러닝 파이프라인을 가능하게 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기