RAG의 경우 디코딩(decode)보다 프리필(prefill) 속도가 더 중요한 이유와 Strix Halo가 대화형 사용에서 어려움을 겪는 이유

최근 "로컬 RAG를 위한 하드웨어는 무엇인가"라는 스레드가 많이 보이는데, 계속해서 간과되고 있는 관점은 다음과 같습니다: RAG에서 병목 현상은 디코딩(decode) tok/s가 아닙니다.

RAG의 병목은 프리필(prefill)입니다.

RAG는 검색된 수천 토큰의 컨텍스트(context)를 매 프롬프트에 집어넣습니다. Strix Halo와 같은 통합 메모리(unified memory) 시스템에서는 MoE 모델의 디코딩 속도가 매우 양호함에도 불구하고(25-40 tok/s), 프리필 처리량(prefill throughput)은 외장 GPU(discrete GPU)에 비해 훨씬 뒤처집니다. 단일 24GB 외장 그래픽 카드는 동일한 컨텍스트를 몇 초 만에 처리하지만, 통합 메모리 설정에서는 첫 번째 토큰이 나오기까지 20-60초 동안 멍하니 기다려야 할 수도 있습니다.

만약 당신의 작업이 배치(batch) 스타일이라면 충분히 괜찮습니다. 하지만 끊임없이 미세 조정(tweaking)을 해야 한다면 다른 것이 필요합니다.

예산이 제한적인 경우를 위한 실질적인 조언: 통합 메모리만으로 대화형 RAG가 쾌적할 것이라고 가정하기보다는, 나중에 프리필(prefill) 부하를 분산하기 위해 외장 그래픽 카드를 장착할 수 있도록 빈 PCIe 슬롯이 있는 보드를 선택하세요.

Insights

RAG의 경우 디코딩(decode)보다 프리필(prefill) 속도가 더 중요한 이유와 Strix Halo가 대화형 사용에서 어려움을 겪는 이유

요약

핵심 포인트

댓글

SOTA LLM 로컬 배포, OpenAI 미세 조정 (Fine-tuning) 플랫폼, 그리고 Google A2UI 생성형 UI 표준

Alibaba의 Damo Academy AI 에이전트, 28시간 만에 4개의 새로운 초전도체 발견

AI Security Inst, 테스트 시간 연산(Test-Time Compute)이 프런티어 모델 평가를 왜곡한다고 밝혀

Adyen, 리더십 업데이트의 일환으로 임시 CFO 임명

Alibaba의 Damo Academy AI 에이전트, 28시간 만에 4개의 새로운 초전도체 발견

AI Security Inst, 테스트 시간 연산(Test-Time Compute)이 프런티어 모델 평가를 왜곡한다고 밝혀

Adyen, 리더십 업데이트의 일환으로 임시 CFO 임명