MinT: 수백만 개의 LLM을 학습 및 서빙하기 위한 관리형 인프라
요약
MinT(MindLab Toolkit)는 수백만 개의 LLM 정책을 효율적으로 학습하고 서비스하기 위한 관리형 인프라 시스템입니다. 이 시스템은 비용이 많이 드는 베이스 모델을 공유하고, LoRA 어댑터 수정본만을 롤아웃, 업데이트, 서빙하는 방식으로 작동합니다. MinT는 Scale Up(1T+ 파라미터 지원), Scale Down(어댑터 전용 핸드오프를 통한 속도 향상), Scale Out(정책 주소 지정 가능성을 워킹셋으로부터 분리)의 세 가지 축을 확장하여 대규모 정책 관리 및 서빙 능력을 제공합니다.
핵심 포인트
- MinT는 LoRA 어댑터를 활용하여 단일 베이스 모델 위에서 수백만 개의 LLM 정책을 효율적으로 관리하고 서비스할 수 있게 합니다.
- Scale Up 측면에서는 MLA, DSA 등 프런티어 아키텍처를 포함하여 1조(1T) 파라미터 이상의 학습 및 서빙을 검증했습니다.
- Scale Down 측면에서 어댑터 전용 핸드오프는 기존 대비 상당한 속도 단축 효과를 보여줍니다 (예: 30B MoE에서 2.85배 단축).
- Scale Out은 정책 주소 지정 가능성을 분리하여, 수백만 개의 정책 카탈로그와 클러스터 규모의 활성 웨이브를 지원합니다.
- MinT는 복잡한 분산 학습 및 서빙 과정을 서비스 인터페이스 뒤로 숨겨 사용 편의성을 높였습니다.
우리는 Low-Rank Adaptation (LoRA) 사후 학습 (post-training) 및 온라인 서빙 (online serving)을 위한 관리형 인프라 시스템인 MindLab Toolkit (MinT)을 선보입니다. MinT는 소수의 비용이 많이 드는 베이스 모델 (base-model) 배포를 통해 많은 학습된 정책 (policies)이 생성되는 환경을 목표로 합니다. 각 정책을 병합된 전체 체크포인트 (merged full checkpoint)로 실체화하는 대신, MinT는 베이스 모델을 상주시키고 내보낸 LoRA 어댑터 (LoRA adapter) 수정본을 롤아웃 (rollout), 업데이트 (update), 내보내기 (export), 평가 (evaluation), 서빙 (serving), 롤백 (rollback) 과정을 통해 이동시키며, 분산 학습 (distributed training), 서빙 (serving), 스케줄링 (scheduling), 데이터 이동 (data movement)을 서비스 인터페이스 뒤로 숨깁니다. MinT는 이 경로를 세 가지 축을 따라 확장합니다. Scale Up은 LoRA RL을 MLA 및 DSA 어텐션 (attention) 경로를 포함하여 프런티어 규모의 밀집 (dense) 및 MoE 아키텍처로 확장하며, 총 1T 이상의 파라미터 (parameters)를 초과하는 학습 및 서빙을 검증했습니다. Scale Down은 내보낸 LoRA 어댑터만을 이동시키는데, 이는 rank-1 설정에서 베이스 모델 크기의 1% 미만일 수 있습니다. 어댑터 전용 핸드오프 (adapter-only handoff)는 4B 밀집 모델에서 측정된 단계를 18.3배, 30B MoE에서 2.85배 단축하며, 동시에 수행되는 멀티 정책 (multi-policy) GRPO는 피크 메모리 (peak memory)를 높이지 않고도 실제 시간 (wall time)을 각각 1.77배 및 1.45배 단축합니다. Scale Out은 내구성이 있는 정책 주소 지정 가능성 (policy addressability)을 CPU/GPU 워킹 셋 (working sets)으로부터 분리합니다. 텐서 병렬 (tensor-parallel) 배포는 10^6 규모의 주소 지정 가능한 카탈로그 (측정된 단일 엔진 스윕은 100K까지)와 클러스터 규모에서 수천 개의 어댑터 활성 웨이브 (active waves)를 지원하며, 콜드 로딩 (cold loading)은 스케줄링된 서비스 작업으로 처리되고 패킹된 MoE LoRA 텐서 (tensors)는 라이브 엔진 로딩을 8.5~8.7배 개선합니다. 따라서 MinT는 공유된 1T급 베이스 모델 위에서 선택된 어댑터 수정본을 학습 및 서빙하는 동시에 백만 규모의 LoRA 정책 카탈로그를 관리합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기