GGML_CUDA_ALLREDUCE를 제거한 후 드디어 MTP의 이점을 확인했습니다
요약
GGML_CUDA_ALLREDUCE 설정을 제거함으로써 MTP(Multi-Token Prediction) 환경에서 TPS(Tokens Per Second) 성능이 크게 향상됨을 확인했습니다. 특정 환경에서 성능 저하를 일으키던 설정을 조정하여 최적화에 성공한 사례를 공유합니다.
핵심 포인트
- GGML_CUDA_ALLREDUCE 제거 시 TPS 성능 대폭 향상
- MTP 환경에서 발생하던 낮은 토큰 생성 속도 문제 해결
- 환경 변수 설정이 성능에 미치는 영향 확인 및 최적화 팁
한동안 이 문제로 씨름해 왔습니다. MTP (Multi-Token Prediction) 수치가 17에서 때로는 30대까지 낮게 나타나곤 했는데요, 오늘 제가 깊이 파고들어 정말 다양한 설정(configuration)과 cmake 재빌드(remake) 등 온갖 방법을 시도해 보았습니다. 그 모든 시도 끝에 마침내 GGML_CUDA_ALLREDUCE를 제거해 보았고, 드디어 TPS (Tokens Per Second)가 눈에 띄게 향상되는 것을 확인했습니다!
혹시라도 이 글을 보고 비슷한 상황에 처한 분이 계실까 하여 게시합니다. 해당 환경 변수(envar)는 보통 유익한 것으로 간주되기 때문에 제거할 생각을 미처 못 했었는데, 일단 제거하고 나니 정말 놀라울 정도였습니다!
https://imgur.com/a/obaIkVy
submitted by /u/Bulky-Priority6824
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기