핫 테이크: Git은 90%의 ML 데이터에 적합하지 않은 추상화였다.
요약
이 글은 머신러닝(ML) 데이터의 대부분을 관리하는 데 Git 버전 관리 시스템이 부적절하다고 주장합니다. 체크포인트, 최적화 상태, 훈련 로그 등 ML 워크플로우에서 발생하는 많은 유형의 데이터는 버전 제어보다는 빠르고 저렴하며 변경 가능한 저장 공간을 필요로 합니다. 이에 따라 작성자들은 'Buckets'라는 새로운 형태의 스토리지를 구축하여 이 문제를 해결하고자 했습니다.
핵심 포인트
- ML 데이터 관리에 Git은 적절한 추상화가 아니다.
- 체크포인트, 최적화 상태, 훈련 로그 등 ML 메타데이터는 버전 제어(version control)보다 빠른 쓰기/읽기와 변경 가능성(mutability)이 중요하다.
- 새로운 'Buckets' 스토리지는 S3와 유사하며, Hugging Face Hub 기반에 Xet 중복 제거 기능을 통합하여 효율적인 데이터 관리를 제공한다.
체크포인트(Checkpoints), 옵티마이저 상태(optimizer states), 트레이닝 로그(training logs), 에이전트 트레이스(agent traces) 등 이 모든 것이 버전 관리(version control)가 필요한 것은 아닙니다. 이것들은 빠르고, 저렴하며, 변경 가능한 스토리지(mutable storage)를 필요로 합니다.
그래서 저희는 Buckets를 만들었습니다. Xet dedup과 함께 @huggingface Hub에서 S3와 유사한 스토리지를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @clementdelangue (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기