본문으로 건너뛰기

© 2026 Molayo

GH Trending릴리즈2026. 06. 15. 10:33

vortex-data/vortex

요약

Vortex는 오브젝트 스토리지를 기반으로 하는 고성능 차세대 컬럼형 파일 포맷 및 툴킷입니다. Apache Parquet 대비 압도적인 읽기 및 스캔 성능을 제공하며, Apache Arrow와의 제로 카피 호환성을 지원합니다.

핵심 포인트

  • Parquet 대비 무작위 액세스 읽기 최대 100배 빠름
  • Apache Arrow 및 DataFusion과 제로 카피 호환
  • Linux Foundation 프로젝트로 오픈 소스 및 중립적 거버넌스 유지
  • 플러그형 인코딩 및 확장 가능한 아키텍처 제공

Slack 커뮤니티에 참여하세요! | 문서 (Documentation) | 성능 벤치마크 (Performance Benchmarks)

더 긴밀한 협업을 원하신다면 info@vortex.dev로 이메일을 보내주세요.

Vortex는 고성능 데이터 처리 (high-performance data processing)를 위해 설계된 차세대 컬럼형 파일 포맷 (columnar file format) 및 툴킷 (toolkit)입니다. 이는 오브젝트 스토리지 (object storage)를 기반으로 하는 데이터 시스템을 구축하기 위한 가장 빠르고 확장 가능한 포맷입니다. Vortex는 다음과 같은 기능을 제공합니다:

압도적인 성능 (Blazing Fast Performance)- 현대적인 Apache Parquet 대비 100배 빠른 무작위 액세스 읽기 (random access reads)

  • 10-20배 빠른 스캔 (scans)

  • 5배 빠른 쓰기 (writes)

  • 유사한 압축률 (compression ratios)

  • 제로 카피/제로 파싱 (zero-copy/zero-parse) 메타데이터를 통한 와이드 테이블 (wide tables)의 효율적인 지원

확장 가능한 아키텍처 (Extensible Architecture)- Apache DataFusion의 확장 가능한 접근 방식을 모델로 함

  • 플러그형 인코딩 시스템 (encoding system), 타입 시스템 (type system), 압축 전략 (compression strategy) 및 레이아웃 전략 (layout strategy)

  • Apache Arrow와의 제로 카피 (zero-copy) 호환성

오픈 소스, 중립적 거버넌스 (Open Source, Neutral Governance)- Linux Foundation (LF AI & Data) 프로젝트

  • Apache-2.0 라이선스

통합 (Integrations)- Arrow, DataFusion, DuckDB, Spark, Pandas, Polars 등

  • Apache Iceberg (출시 예정)

🟢

개발 상태: 라이브러리 API (Library APIs)는 버전마다 변경될 수 있지만, 현재 파일 포맷은 안정적인 것으로 간주합니다. 0.36.0 릴리스부터 Vortex의 모든 향후 릴리스는 파일 포맷의 하위 호환성 (backwards compatibility)을 유지해야 합니다 (즉, 0.36.0 이상의 모든 이전 버전에서 작성된 파일을 읽을 수 있어야 함).

논리적 타입 (Logical Types)- 논리적 스키마 (logical schema)와 물리적 레이아웃 (physical layout) 간의 깔끔한 분리
제로 카피 Arrow 통합 (Zero-Copy Arrow Integration)- Apache Arrow 배열로의 원활한 상호 변환
확장 가능한 인코딩 (Extensible Encodings)- 내장된 최적화 기능이 포함된 플러그형 물리적 레이아웃
계층적 압축 (Cascading Compression)- 중첩된 인코딩 스킴 (nested encoding schemes) 지원
고성능 컴퓨팅 (High-Performance Computing)- 인코딩된 데이터를 위한 최적화된 컴퓨팅 커널 (compute kernels)
풍부한 통계 (Rich Statistics)- 최적화를 위한 지연 로드(lazy-loaded) 요약 통계

Vortex는 논리적 관심사와 물리적 관심사를 엄격하게 분리합니다:

논리 계층 (Logical Layer): 데이터 타입 및 스키마(schema) 정의
물리 계층 (Physical Layer): 인코딩(encoding) 및 저장 구현 처리
내장 인코딩 (Built-in Encodings): Apache Arrow의 메모리 포맷과 호환
확장 인코딩 (Extension Encodings): 최적화된 압축 방식 (RLE, dictionary 등)

모든 기능은 메인 vortex crate를 통해 내보내집니다.

cargo add vortex

uv add vortex-data

Vortex 파일의 구조를 탐색하려면 vx 명령줄 도구(command-line tool)를 사용할 수 있습니다.

# 사전 빌드된 바이너리 설치 (빠름, 권장)
cargo binstall vortex-tui
# 또는 소스에서 빌드
...
# 선택 사항이지만 권장되는 의존성
brew install flatbuffers protobuf # .fbs 및 .proto 파일용
brew install duckdb # 벤치마크용
...

엔진(DataFusion, DuckDB)과 포맷(Parquet, Vortex)을 비교하는 벤치마크를 실행하려면 vx-bench를 사용하세요:

# 벤치마크 오케스트레이터(orchestrator) 설치
uv tool install "bench_orchestrator @ ./bench-orchestrator/"
# TPC-H 벤치마크 실행
...

전체 문서는 bench-orchestrator/README.md를 참조하십시오.

최적의 성능을 위해 MiMalloc 사용을 권장합니다:

#[global_allocator]
static GLOBAL_ALLOC: MiMalloc = MiMalloc;

Apache License, Version 2.0에 따라 라이선스가 부여됩니다.

Vortex는 독립적인 오픈 소스 프로젝트이며 단일 기업에 의해 제어되지 않습니다. Vortex 프로젝트는 Linux Foundation Projects의 하위 프로젝트입니다. 거버넌스 모델은 CONTRIBUTING.md에 문서화되어 있으며 기술 헌장(Technical Charter)의 약관을 따릅니다.

기여하기 전에 반드시 CONTRIBUTING.md를 읽어주시기 바랍니다.

보안 취약점을 발견하면 vuln-report@vortex.dev로 이메일을 보내주세요.

Copyright © Vortex a Series of LF Projects, LLC. 이용 약관, 상표 정책 및 기타 프로젝트 정책은 https://lfprojects.org 를 참조하십시오.

Vortex 프로젝트는 학계 및 오픈 소스 커뮤니티의 획기적인 연구로부터 막대한 혜택을 받고 있습니다.

  • BtrBlocks - 효율적인 열 지향 압축 (columnar compression)

  • FastLanes & FastLanes on GPU - 고성능 정수 압축 (integer compression)

  • FSST - 빠른 임의 접근 문자열 압축 (Fast random access string compression)

  • ALP & G-ALP - 적응형 무손실 부동 소수점 압축 (Adaptive lossless floating-point compression)

  • Procella - YouTube의 통합 데이터 시스템 (unified data system)

  • Anyblob - 객체 스토리지 (object storage)에 대한 고성능 액세스

  • ClickHouse - 모두를 위한 빠른 분석 (Fast analytics)

  • MonetDB/X100 - 하이퍼 파이프라이닝 쿼리 실행 (Hyper-Pipelining Query Execution)

  • Morsel-Driven Parallelism: 멀티코어 시대를 위한 NUMA 인식 쿼리 평가 포맷 (A NUMA-Aware Query Evaluation Format for the Many-Core Age)

  • The FastLanes File Format - 표현 연산자 (Expression Operators)

  • Apache Arrow

  • Apache DataFusion

  • parquet2 (Jorge Leitao 제작)

  • DuckDB

  • Velox & Nimble

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Trending Rust (weekly)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0