arXiv논문2026. 06. 04. 13:17

MusaCoder: Moore Threads GPU에서의 풀스택 학습을 통한 네이티브 GPU 커널 생성

요약

MusaCoder는 Moore Threads GPU 환경에서 효율적인 네이티브 GPU 커널을 생성하기 위한 풀스택 학습 프레임워크입니다. 데이터 합성, 거부 미세 조정, 실행 피드백 강화학습을 결합하여 기존 LLM의 커널 생성 한계를 극복했습니다.

핵심 포인트

MusaCoder 프레임워크를 통한 네이티브 GPU 커널 생성 최적화
실행 피드백 기반의 강화학습(RL) 안정화 기술 도입
KernelBench 실험 결과 기존 SOTA 모델 능가
Moore Threads GPU의 대규모 모델 학습 역량 입증

네이티브 GPU 커널 생성 (Native GPU kernel generation)은 고수준의 텐서 프로그램 (tensor programs)을 실행 가능하고 효율적인 저수준 코드 (low-level code)로 변환합니다. 기존의 대규모 언어 모델 (LLMs)은 이 작업에 어려움을 겪고 있으며, 실행 기반의 강화학습 (Reinforcement Learning, RL)은 희소한 보상 (sparse rewards), 보상 해킹 (reward hacking), 그리고 학습 불안정성 (training instability) 문제를 겪습니다. 본 논문에서는 CUDA 및 MUSA 백엔드에서의 네이티브 GPU 커널 생성을 위한 풀스택 학습 프레임워크인 MusaCoder를 제시합니다. MusaCoder는 점진적인 커널 지향 데이터 합성 (progressive kernel-oriented data synthesis), 다양성을 보존하는 거부 미세 조정 (diversity-preserving rejection fine-tuning), 그리고 분산 검증기 및 보상 환경인 MooreEval을 통한 실행 피드백 강화학습 (RL)을 결합합니다. RL을 안정화하기 위해, MusaCoder는 첫 번째 턴에 고정된 다중 턴 보상을 위한 PrimeEcho, 모든 시도가 실패한 어려운 샘플로부터 신호를 회복하기 위한 Buffered Dynamic Retry, 그리고 오프-정책 시퀀스 필터링 (off-policy sequence filtering)을 위한 MirrorPop을 도입합니다. KernelBench 및 MUSA로 포팅된 변형 모델에 대한 실험 결과, MusaCoder는 정확도와 실측 속도 향상 (empirical speedup) 측면 모두에서 강력한 오픈 소스 및 독점 베이스라인 모델들을 능가함을 보여주었습니다. 특히 9B 모델은 최첨단 폐쇄형 모델 (frontier closed-source models)과 대등하거나 이를 능가하였으며, 27B 모델은 새로운 SOTA (state of the art)를 기록했습니다. 이러한 결과는 네이티브 커널 생성을 위한 풀스택 실행 피드백 학습의 효과성을 입증할 뿐만 아니라, 완전한 LLM 사후 학습 (post-training) 스택을 지원할 수 있는 Moore Threads GPU의 역량을 보여주며, 신흥 가속기에서의 대규모 모델 학습 및 최적화를 위한 실질적인 토대를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MusaCoder: Moore Threads GPU에서의 풀스택 학습을 통한 네이티브 GPU 커널 생성

요약

핵심 포인트

댓글