NasZip: DIMM 기반 근접 데이터 처리 (Near-Data Processing)를 통한 근사 최근접 이웃 탐색 (ANNS) 가속을 위한
요약
RAG의 핵심인 ANNS 성능을 높이기 위해 DIMM 기반 근접 데이터 처리(NDP)와 PCA 기반 조기 종료 기술을 결합한 NASZIP 프레임워크를 제안합니다. 하드웨어와 소프트웨어의 공동 설계를 통해 메모리 대역폭 제한 문제를 해결하고 검색 속도를 획기적으로 개선했습니다.
핵심 포인트
- PCA 기반 특징 수준 조기 종료로 정확도 유지 및 속도 향상
- 비트 수준 NDP 인식 동적 부동 소수점 방식 도입
- 데이터 지역성 활용 및 채널 간 통신 오버헤드 감소
- CPU 대비 최대 8.4배, GPU 대비 1.4배 성능 향상 달성
대규모 언어 모델 (LLMs)이 지속적으로 발전함에 따라, 검색 증강 생성 (RAG)은 모델의 지식을 확장하고 환각 (hallucinations) 현상을 줄이기 위한 핵심 메커니즘이 되었습니다. RAG의 중심에는 주어진 쿼리와 가장 유사한 데이터베이스 벡터를 검색하는 근사 최근접 이웃 탐색 (Approximate Nearest Neighbor Search, ANNS)이 있습니다. 그러나 고차원 벡터에 대한 거리 계산은 본질적으로 메모리 대역폭 제한 (memory-bound) 문제에 직면하며, 이로 인해 CPU 및 GPU와 같은 주류 플랫폼에서의 검색 성능이 I/O 대역폭에 의해 제약됩니다. 기존의 많은 조기 종료 (Early Exiting, EE) 기술들은 일부 차원만을 계산하여 메모리 접근을 줄이려고 시도하지만, 부분 거리 (partial distance)가 EE 임계값에 너무 느리게 수렴하여 궁극적으로 성능 향상을 제한합니다.
이러한 과제를 해결하기 위해, 우리는 통계 기반 주성분 분석 (Principal Component Analysis, PCA)에 의해 유도되는 새로운 특징 수준 (feature-level) 조기 종료와 근접 데이터 처리 (Near-Data Processing, NDP)를 통합한 하드웨어-소프트웨어 공동 설계 프레임워크인 NASZIP을 제안합니다. NASZIP은 단순히 부분 거리에만 의존하는 대신, 추정 및 보정 파라미터를 통합하여 전체 차원 거리를 정확하게 근사함으로써 정확도를 손상시키지 않으면서 더 빠른 조기 종료를 가능하게 합니다. 또한, 벡터 데이터에 대한 메모리 접근을 크게 줄이는 비트 수준 (bit-level) NDP 인식 동적 부동 소수점 (dynamic-float) 방식을 도입합니다.
하드웨어 측면에서는 데이터 인식 이웃 목록 매핑 (data aware neighbor list mapping) 전략을 개발하여 이웃 검색 지연 시간과 채널 간 통신 오버헤드를 줄였으며, 데이터 지역성 (data locality)을 활용하고 프리페치 (prefetch) 효율성을 높이는 전용 캐시를 보완하였습니다. 이러한 공동 최적화 기술을 통해, NASZIP은 동일한 정확도에서 CPU 베이스라인 및 최첨단 GPU 구현 대비 각각 최대 $8.4 imes$ / $1.4 imes$의 속도 향상을 제공합니다. 최첨단 NDP ANNS 가속기인 ANSMET과 비교했을 때, NASZIP은 $1.69 imes$의 성능 향상을 달성합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기