RAG의 경우 디코딩(decode)보다 프리필(prefill) 속도가 더 중요한 이유와 Strix Halo가 대화형 사용에서 어려움을 겪는 이유
요약
RAG 시스템의 성능 병목은 디코딩이 아닌 프리필(prefill) 단계에 있으며, 통합 메모리 시스템은 대량의 컨텍스트 처리 시 외장 GPU보다 느릴 수 있습니다. 대화형 RAG를 원활하게 구축하려면 프리필 부하를 감당할 수 있는 하드웨어 구성이 필요합니다.
핵심 포인트
- RAG의 핵심 병목 지점은 디코딩이 아닌 프리필 단계임
- 통합 메모리 시스템은 MoE 디코딩은 빠르나 프리필 처리량은 낮을 수 있음
- 대화형 RAG를 위해서는 높은 프리필 처리량이 필수적임
- 확장성을 위해 외장 GPU 장착이 가능한 PCIe 슬롯 확보 권장
최근 "로컬 RAG를 위한 하드웨어는 무엇인가"라는 스레드가 많이 보이는데, 계속해서 간과되고 있는 관점은 다음과 같습니다: RAG에서 병목 현상은 디코딩(decode) tok/s가 아닙니다.
RAG의 병목은 프리필(prefill)입니다.
RAG는 검색된 수천 토큰의 컨텍스트(context)를 매 프롬프트에 집어넣습니다. Strix Halo와 같은 통합 메모리(unified memory) 시스템에서는 MoE 모델의 디코딩 속도가 매우 양호함에도 불구하고(25-40 tok/s), 프리필 처리량(prefill throughput)은 외장 GPU(discrete GPU)에 비해 훨씬 뒤처집니다. 단일 24GB 외장 그래픽 카드는 동일한 컨텍스트를 몇 초 만에 처리하지만, 통합 메모리 설정에서는 첫 번째 토큰이 나오기까지 20-60초 동안 멍하니 기다려야 할 수도 있습니다.
만약 당신의 작업이 배치(batch) 스타일이라면 충분히 괜찮습니다. 하지만 끊임없이 미세 조정(tweaking)을 해야 한다면 다른 것이 필요합니다.
예산이 제한적인 경우를 위한 실질적인 조언: 통합 메모리만으로 대화형 RAG가 쾌적할 것이라고 가정하기보다는, 나중에 프리필(prefill) 부하를 분산하기 위해 외장 그래픽 카드를 장착할 수 있도록 빈 PCIe 슬롯이 있는 보드를 선택하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기