arXiv논문2026. 06. 30. 12:26

Atompack: 읽기 집약적인 원자 단위 ML 학습 데이터셋을 위한 저장 및 배포 계층

요약

원자 단위 머신러닝 학습을 위해 설계된 새로운 저장 및 배포 계층인 Atompack을 소개합니다. Atompack은 불변 인덱스와 메모리 맵 읽기 경로를 통해 셔플된 학습 워크로드에서 기존 방식보다 압도적인 읽기 속도와 높은 압축률을 제공합니다.

핵심 포인트

원자 단위 ML 학습의 읽기 집약적 특성에 최적화된 추가 지향적 저장 형식
ASE LMDB 대비 셔플된 읽기 성능에서 최대 96배 향상된 속도 구현
기존 방식 대비 아티팩트 크기를 약 79% 절감하여 효율적인 배포 가능
완전한 분자 레코드 제공을 통해 학습 처리량과 데이터 컴팩트함 동시 달성

원자 단위 머신러닝 (Atomistic machine learning) 데이터셋은 학습을 위해 점점 더 많이 사용되고 있습니다. 대규모의 불변 스냅샷 (immutable snapshots)은 반복적으로 읽히고, 에포크 (epochs) 전반에 걸쳐 셔플 (shuffled)되며, 클러스터의 스토리지 시스템 전반에 스테이징 (staged)되고, 재사용 가능한 과학적 아티팩트 (artifacts)로서 재배포됩니다. 이러한 워크로드 (workload)는 가변적인 레코드 (mutable records)와 임시적인 검사가 무작위 인덱스 처리량 (random indexed throughput)보다 더 중요한 대화형 과학적 큐레이션 (interactive scientific curation)과는 다릅니다. 우리는 단순한 워크로드를 중심으로 설계된 추가 지향적 (append-oriented) 저장 형식 및 배포 계층인 Atompack을 제시합니다. 학습 파이프라인 (training pipelines)은 보통 완전한 분자 레코드 (molecular records)를 소비하며, 레코드의 순서는 학습 알고리즘에 의해 무작위화된다는 점에 착안했습니다. Atompack은 데이터셋 구축 중에 레코드를 효율적으로 추가(append)한 다음, 불변 인덱스 (immutable index)를 커밋하고 학습에 최적화된 메모리 맵 읽기 경로 (memory-mapped read path)를 통해 레코드를 제공합니다. 우리는 배열 저장소 (array stores), 키-값 레코드 (key-value records), 직렬화된 레코드 (serialized records), 객체 지향 데이터베이스 (object-oriented databases)를 나타내는 HDF5, LMDB, ASE 베이스라인과 Atompack을 비교합니다. 벤치마크는 순차 읽기 (sequential reads), 셔플된 읽기 (shuffled reads), 공유 파일 시스템 동작 (shared-filesystem behavior), 쓰기 처리량 (write throughput), 그리고 아티팩트 크기 (artifact size)를 측정합니다. 대표적인 64-원자 (64-atom) 워크로드에서 Atompack은 셔플된 학습 스타일의 읽기에서 ASE LMDB보다 96배 더 빠르며, 아티팩트 크기는 약 79% 더 작게 생성합니다. 이 결과는 필드 청크 (field chunks)나 재구성된 객체 (reconstructed objects) 대신 완전한 분자 레코드를 제공하는 것이, 아티팩트를 공개 배포에 충분할 만큼 컴팩트하게 유지하면서도 셔플된 학습 처리량을 향상시킨다는 것을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

Atompack: 읽기 집약적인 원자 단위 ML 학습 데이터셋을 위한 저장 및 배포 계층

요약

핵심 포인트

댓글