본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 16. 14:03

확률적 희소화(Probabilistic Thinning)를 통한 저지연 피처 엔진의 추론과 상태 업데이트 분리

요약

스트리밍 머신러닝 파이프라인에서 추론과 상태 업데이트를 분리하여 지연 시간을 줄이는 확률적 희소화(Probabilistic Thinning) 기법을 제안합니다. 모든 이벤트에 대해 점수를 매기되, 정보가 풍부한 이벤트만 선택적으로 상태를 업데이트하여 저장소 I/O 오버헤드를 획기적으로 낮춥니다.

핵심 포인트

  • 추론과 상태 영속성 경로를 분리하여 시스템 지연 시간 및 경합 감소
  • 근사 통계에 기반한 제어로 인메모리 제어 평면 없이 영속성 제어 가능
  • 필터링을 통해 이벤트의 최대 90%를 영속성 경로에서 제외 가능
  • 분산 인식 공식을 통해 시간 기반 집계의 편향 없는 상태 유지 증명

스트리밍 데이터 시스템은 지속적으로 업데이트되는 방대한 양의 집계(aggregations)를 유지해야 하는 머신러닝 (Machine Learning) 워크플로의 기반이 되고 있습니다. 프로덕션 환경에서 각 유입 이벤트는 일반적으로 영구 저장소(persistent storage)에 대한 읽기-수정-쓰기 (read-modify-write) 작업을 트리거하며, 이로 인해 고빈도 상태 업데이트 (state updates)가 지연 시간 (latency), 경합 (contention) 및 운영 비용의 주요 원인이 됩니다. 본 연구에서는 확률적 희소화 (probabilistic thinning)를 통해 스트리밍 머신러닝 (Machine Learning) 파이프라인에서 추론 (inference)과 상태 영속성 (state persistence)을 분리합니다. 즉, 모든 이벤트에 대해 점수 (score)를 매기되, 정보가 풍부한 이벤트에 의해서만 선택적으로 내구성이 있는 상태 업데이트 (durable state updates)를 트리거합니다. 입력이나 상태를 버리는 기존 방식과 달리, 우리는 고빈도 인메모리 제어 평면 (in-memory control plane)이나 워커 간 조정 (cross-worker coordination) 없이도, 디스크 기반 키-값 저장소 (disk-backed key-value stores)에서 검색된 근사 통계 (approximate statistics)에만 의존하여 영속성 경로 (persistence-path) 제어가 가능함을 보여줍니다. 우리는 결과적으로 발생하는 확률적 프로세스 (stochastic processes)를 모델링하고, 필터링 비율 (filtering rates)에 대한 경계 (bounds)를 도출하며, 분산 인식 공식 (variance-aware formulations) 하에서 일반적인 시간 기반 집계 (time-based aggregations)가 편향되지 않은 상태 (unbiased)를 유지하여 체계적인 오류 누적을 방지함을 증명합니다. 우리는 이벤트당 비용을 격리한 통제된 환경에서 이 접근 방식을 평가하여, 저장소 입출력 (Input/Output) 및 직렬화 (serialization) 오버헤드가 실질적으로 감소함을 입증했습니다. 실험 전반에 걸쳐, 다운스트림 유용성 (downstream utility)을 보존하거나 경우에 따라 개선하면서도 이벤트의 최대 90%를 영속성 경로 (persistence path)에서 제외할 수 있었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0