Reddit요약2026. 06. 15. 09:21

커스텀 CUDA 커널을 사용한 PyTorch MoE/MoD 학습 프레임워크 구축 [Apache 2.0]

요약

MoE 및 MoD 아키텍처를 지원하는 PyTorch 기반의 LLM 학습 프레임워크입니다. 커스텀 CUDA 커널을 통해 학습 속도를 대폭 향상시켰으며, 적응형 학습 오케스트레이터를 통해 효율적인 파라미터 및 메모리 관리를 제공합니다.

핵심 포인트

커스텀 CUDA 커널 적용 시 T4 GPU에서 2~7배 성능 향상
MoE와 MoD를 결합한 하이브리드 아키텍처 지원
학습률 조정 및 OOM 처리를 수행하는 적응형 오케스트레이터 탑재
500K에서 300B 파라미터까지 광범위한 모델 규모 지원
Apple Silicon Metal 셰이더 지원 및 Apache 2.0 라이선스

MoE(Mixture of Experts) 및 MoD(Mixture of Depths) 아키텍처 지원, 커스텀 CUDA 커널, 그리고 DeepSpeed 통합을 갖춘 트랜스포머(Transformer) LLM 학습용 PyTorch 프레임워크입니다.

주요 기능:

RMSNorm, RoPE, SwiGLU, MoE 라우팅을 위한 커스텀 CUDA 커널. T4 GPU에서 일반 PyTorch보다 2~7배 빠름
Mixture of Experts (최대 64개 전문가) + Mixture of Depths, 하이브리드 설정 포함
20개 이상의 지표를 모니터링하고 자동으로 개입하는 적응형 학습 오케스트레이터 (학습률(LR) 조정, 전문가 가지치기/추가, OOM(Out of Memory) 처리 등)
500K에서 300B 파라미터까지의 설정 지원
Apple Silicon Metal 셰이더 지원

벤치마크는 T4(Google Colab)에서 검증되었습니다. A100/H100에 대한 수치는 아직 해당 하드웨어를 사용할 수 없기 때문에 아키텍처 사양을 바탕으로 추정되었습니다.
Apache 2.0 라이선스이며, 무료 Colab 데모가 포함되어 있습니다.
레포지토리: https://github.com/MatN23/AdaptiveTrainingSystem
데모: https://colab.research.google.com/drive/1tH1z9e7px2G8NGqWUN9gdqxs1CnUC7p1
질문에 답변하거나 피드백을 받는 것을 환영하며, 특히 Ampere 이상 하드웨어에서 테스트할 수 있는 분들의 의견을 기다립니다.
submitted by /u/RefrigeratorCalm9701 to r/LocalLLaMA
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

커스텀 CUDA 커널을 사용한 PyTorch MoE/MoD 학습 프레임워크 구축 [Apache 2.0]

요약

핵심 포인트

댓글