X요약2026. 04. 29. 16:50

핫 테이크: Git은 90%의 ML 데이터에 적합하지 않은 추상화였다.

요약

이 글은 머신러닝(ML) 데이터의 대부분을 관리하는 데 Git 버전 관리 시스템이 부적절하다고 주장합니다. 체크포인트, 최적화 상태, 훈련 로그 등 ML 워크플로우에서 발생하는 많은 유형의 데이터는 버전 제어보다는 빠르고 저렴하며 변경 가능한 저장 공간을 필요로 합니다. 이에 따라 작성자들은 'Buckets'라는 새로운 형태의 스토리지를 구축하여 이 문제를 해결하고자 했습니다.

핵심 포인트

ML 데이터 관리에 Git은 적절한 추상화가 아니다.
체크포인트, 최적화 상태, 훈련 로그 등 ML 메타데이터는 버전 제어(version control)보다 빠른 쓰기/읽기와 변경 가능성(mutability)이 중요하다.
새로운 'Buckets' 스토리지는 S3와 유사하며, Hugging Face Hub 기반에 Xet 중복 제거 기능을 통합하여 효율적인 데이터 관리를 제공한다.

체크포인트(Checkpoints), 옵티마이저 상태(optimizer states), 트레이닝 로그(training logs), 에이전트 트레이스(agent traces) 등 이 모든 것이 버전 관리(version control)가 필요한 것은 아닙니다. 이것들은 빠르고, 저렴하며, 변경 가능한 스토리지(mutable storage)를 필요로 합니다.

그래서 저희는 Buckets를 만들었습니다. Xet dedup과 함께 @huggingface Hub에서 S3와 유사한 스토리지를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

핫 테이크: Git은 90%의 ML 데이터에 적합하지 않은 추상화였다.

요약

핵심 포인트

댓글