본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 26. 13:38

GRAINS: 고성능 및 저비용 그래프 기반 게놈 분석을 가능하게 하는 스토리지 인식 알고리즘-아키텍처 공동 설계

요약

GRAINS는 대규모 게놈 그래프 분석 시 발생하는 데이터 이동 오버헤드를 줄이기 위해 스토리지 인식 알고리즘-아키텍처 공동 설계를 제안합니다. 인스토리지 및 인플래시 프로세싱을 통해 기존 시스템 대비 성능과 에너지 효율을 획기적으로 개선했습니다.

핵심 포인트

  • 스토리지 내부 데이터 처리를 통한 데이터 이동 오버헤드 완화
  • 게놈 그래프 특성에 최적화된 새로운 배치 및 실행 흐름 제안
  • 인플래시/인스토리지 프로세싱으로 플래시 페이지 전송 방지
  • 기존 SSD 구조를 재용도화한 경량화된 스케줄링 기술 설계
  • 기존 베이스라인 대비 최대 47.8배 속도 향상 및 에너지 절감

게놈 서열의 그래프 기반 표현(Graph-based representations)은 방대한 게놈 데이터베이스를 표현력 있고 효율적인 방식으로 나타내는 강력한 접근법으로 부상했습니다. 이러한 이점에도 불구하고, 대규모 게놈 그래프에 대한 분석은 재사용성이 낮은 대량의 데이터에 접근함에 따라 스토리지 시스템으로부터 발생하는 상당한 데이터 이동 오버헤드(data movement overhead)를 초래합니다. 스토리지 장치 내부에서 데이터를 직접 처리하는 것은 이러한 오버헤드를 완화하기 위한 근본적인 해결책이 될 수 있습니다. 그러나 현대 SSD의 제한된 내부 하드웨어 리소스로 인해, 기존의 그래프 기반 게놈 분석 도구 중 어느 것도 스토리지 시스템 내부에서 효율적으로 사용될 수 없습니다. 동시에, (i) 전통적인 선형 비그래프 기반 게놈 분석 또는 (ii) 기존의 비게놈 그래프 분석을 위해 개발된 이전의 스토리지 중심 시스템들은 그래프 기반 게놈 분석의 독특한 데이터 구조 및 액세스 패턴(access patterns)에 적합하지 않습니다. 우리는 스토리지 내에서 대규모 게놈 그래프를 분석하기 위한 최초의 시스템인 GRAINS를 제안합니다. 게놈 그래프에서 작동하는 전형적인 분석 파이프라인에 대한 상세한 조사를 통해, 우리는 (i) 이러한 파이프라인을 더욱 스토리지 친화적으로 만들고, (ii) 인스토리지(in-storage) 및 인플래시(in-flash) 프로세싱을 통해 성능, 에너지 효율성 및 비용을 더욱 개선하기 위해 스토리지 인식 알고리즘-아키텍처 공동 설계(storage-aware algorithm-architecture co-design)를 수행합니다. GRAINS의 공동 설계는 세 가지 핵심 측면에 기반합니다. 첫째, 게놈 그래프의 고유한 특징을 기반으로 한 새로운 배치 및 실행 흐름(batching and execution flow)을 제안합니다. 둘째, 인플래시 및 인스토리지 프로세싱을 통해 재사용성이 낮은 플래시 페이지(flash pages)의 전송을 방지합니다. 셋째, 플래시 다이(flash dies)의 완전한 병렬성을 활용하기 위해, 기존 SSD 구조를 재용도화하여 구현된 효과적이면서도 경량화된 스케줄링 기술을 설계합니다. GRAINS는 최신 소프트웨어 베이스라인 대비 2.7배47.8배의 속도 향상(4.4배31.6배의 에너지 절감)을 제공하며, 하드웨어 가속 베이스라인 대비 1.5배17.0배의 속도 향상(3.1배20.7배의 에너지 절감)을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0