r/LocalLLaMA분석2026. 06. 22. 12:10

GGML_CUDA_ALLREDUCE를 제거한 후 드디어 MTP의 이점을 확인했습니다

요약

GGML_CUDA_ALLREDUCE 설정을 제거함으로써 MTP(Multi-Token Prediction) 환경에서 TPS(Tokens Per Second) 성능이 크게 향상됨을 확인했습니다. 특정 환경에서 성능 저하를 일으키던 설정을 조정하여 최적화에 성공한 사례를 공유합니다.

핵심 포인트

GGML_CUDA_ALLREDUCE 제거 시 TPS 성능 대폭 향상
MTP 환경에서 발생하던 낮은 토큰 생성 속도 문제 해결
환경 변수 설정이 성능에 미치는 영향 확인 및 최적화 팁

한동안 이 문제로 씨름해 왔습니다. MTP (Multi-Token Prediction) 수치가 17에서 때로는 30대까지 낮게 나타나곤 했는데요, 오늘 제가 깊이 파고들어 정말 다양한 설정(configuration)과 cmake 재빌드(remake) 등 온갖 방법을 시도해 보았습니다. 그 모든 시도 끝에 마침내 GGML_CUDA_ALLREDUCE를 제거해 보았고, 드디어 TPS (Tokens Per Second)가 눈에 띄게 향상되는 것을 확인했습니다!

혹시라도 이 글을 보고 비슷한 상황에 처한 분이 계실까 하여 게시합니다. 해당 환경 변수(envar)는 보통 유익한 것으로 간주되기 때문에 제거할 생각을 미처 못 했었는데, 일단 제거하고 나니 정말 놀라울 정도였습니다!
https://imgur.com/a/obaIkVy
submitted by /u/Bulky-Priority6824
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

GGML_CUDA_ALLREDUCE를 제거한 후 드디어 MTP의 이점을 확인했습니다

요약

핵심 포인트

댓글