Rotary GPU: 제한된 GPU 메모리 환경에서 대규모 Mixture-of-Experts 모델을 위한 로컬 실행 경로 탐색
요약
제한된 GPU 메모리 환경에서 대규모 MoE 모델을 효율적으로 실행하기 위한 Rotary GPU 방식을 제안합니다. 소비자용 노트북 환경에서 Qwen3.6-35B-A3B 모델을 성공적으로 로컬 실행하며 배포 접근성을 탐색했습니다.
핵심 포인트
- 제한된 하드웨어 자원에서의 대규모 모델 배포 가능성 탐색
- Rotary-based 가속기 상주 개념을 활용한 실행 방식 제안
- 8GB VRAM 환경에서 35B급 MoE 모델 로컬 실행 성공
- 초당 21.06 토큰의 디코드 처리량 달성
대규모 언어 모델 (LLM)은 스케일링 (Scaling)을 통해 놀라운 능력을 달성해 왔으며, 본 논문은 그 사실에 이의를 제기하지 않습니다. 대신 다른 질문을 조사합니다. 이미 대규모 모델이 존재하는 상황에서, 이 모델들이 실질적으로 훨씬 더 작은 하드웨어 자원을 가진 환경에서도 더 쉽게 접근 가능해질 수 있을까요? 이러한 동기는 아키텍처 연구보다는 배포 (Deployment)에 대한 우려에서 비롯되었습니다. 많은 조직이 대규모 가속기 클러스터에 대한 접근을 제한하는 하드웨어, 예산, 보안 또는 폐쇄형 네트워크 제약 하에서 운영되고 있으며, 모델이 계속 발전함에 따라 배포 접근성은 능력 그 자체만큼이나 중요해질 수 있습니다. 본 논문은 이전에 공개된 회전 기반 (Rotary-based) 가속기 상주 개념에서 파생된 탐색적 실행 방식인 Rotary GPU를 제시합니다. 공개 검증은 8 GB의 VRAM을 탑재한 RTX 4060 Laptop GPU가 장착된 소비자용 노트북에서 로컬로 실행되는 Qwen3.6-35B-A3B급 Mixture-of-Experts (MoE) 모델을 사용하여 수행되었습니다. 기본 구성 하에서 시스템은 약 6.3 GB의 VRAM 사용량을 유지하면서 2048개의 출력 토큰을 생성하였고, 관찰된 디코드 처리량 (Decode throughput)은 초당 21.06 토큰이었습니다. 목표는 데이터 센터 인프라를 대체하는 것이 아니라, 대규모 모델의 일부 능력을 그러한 인프라를 사용할 수 없는 환경에 더 가깝게 가져올 수 있는지 탐색하는 것입니다. 결과는 확정적이라기보다 탐색적인 것으로 읽어야 하지만, 이러한 모델들이 진화함에 따라 배포 접근성이 지속적인 연구 가치가 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AR의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기