본문으로 건너뛰기

© 2026 Molayo

GitHub요약2026. 05. 26. 20:57

WangRongsheng/Aurora

요약

Mixtral-8x7B MoE 모델의 중국어 대화 능력을 향상시키기 위해 Aurora 모델을 구축했습니다. 세 가지 중국어 지시 이행 데이터셋을 활용한 미세 조정을 통해 제로샷 성능을 강화했으며, 벤치마크 테스트를 통해 그 효과를 검증했습니다.

핵심 포인트

  • Mixtral-8x7B MoE 기반의 중국어 특화 모델 Aurora 개발
  • 정밀하게 전처리된 중국어 지시 이행 데이터셋 활용
  • C-Eval, MMLU, CMMLU 등 주요 벤치마크를 통한 성능 검증
  • 단일 GPU 환경에서도 학습 및 추론이 가능한 효율성 입증
  • Ollama를 통한 로컬 실행 지원

Rongsheng Wang, Haoming Chen, Ruizhe Zhou, Yaofei Duan, Kunyan Cai, Han Ma, Jiaxi Cui, Jian Li, Patrick Cheong-Iao Pang, Yapeng Wang, Tao Tan☨

☨교신 저자 (Corresponding author)

중요 사항

DPO 기반의 Aurora 사용을 강력히 권장합니다! 👉여기 GPU가 부족하거나 실행을 위한 튜토리얼이 없다면, 👉Xian Gong Cloud Aurora 이미지를 사용하여 클릭 한 번으로 실행하는 것을 권장합니다. 또한 저희의 👉튜토리얼 영상도 확인하실 수 있습니다. 현재 Ollama를 사용하여 로컬에서 Aurora를 사용하는 것을 지원합니다. 👉여기

기존 연구에 따르면, 기계 생성 지시 이행 (instruction-following) 데이터를 활용하여 대규모 언어 모델 (LLMs)을 미세 조정 (refining)하면, 사람이 작성한 지시 사항 없이도 새로운 작업에 대해 인상적인 제로샷 (zero-shot) 능력을 발휘할 수 있음이 입증되었습니다. 본 논문에서는 Mixtral-8x7B 희소 전문가 혼합 (sparse Mixture-of-Experts) 모델의 중국어 대화 능력을 향상시키는 것을 목표로 세 가지 중국어 지시 이행 데이터셋을 체계적으로 조사, 전처리 및 통합합니다. 이 정밀하게 처리된 데이터셋을 통한 지시 미세 조정 (instruction fine-tuning)을 통해, 저희는 "Aurora"라고 명명된 Mixtral-8x7B 희소 전문가 혼합 (sparse Mixture-of-Experts) 모델을 성공적으로 구축했습니다. Aurora의 성능을 평가하기 위해 C-Eval, MMLU, CMMLU라는 세 가지 널리 알려진 벤치마크 테스트를 활용합니다. 실증적 연구를 통해 Mixtral-8x7B 희소 전문가 혼합 (sparse Mixture-of-Experts) 모델에 적용된 지시 미세 조정 (instruction fine-tuning)의 효과를 검증했습니다. 본 연구는 희소 전문가 혼합 (sparse expert-mixed) 모델에 대한 지시 미세 조정 (instruction fine-tuning)을 수행한 선구적인 사례이며, 이 모델 아키텍처의 능력을 향상시키는 데 있어 중요한 돌파구를 마련했습니다.

LLM 평가가 여전히 큰 과제로 남아 있다는 것은 잘 알려져 있습니다. 저희는 연구에서 세 가지 공개 벤치마크를 사용합니다.

BLEU 및 ROUGE에 대한 서로 다른 체크포인트 (checkpoints)의 점수.

모델 체크포인트 (Model Checkpoints)BLEU-4ROUGE-1ROUGE-2ROUGE-l
checkpoints-600018.413438.266918.952626.572
...
Aurora의 성능은 의료 평가 벤치마크인 CMB에서 테스트되었습니다.
모델 (Model)평균 점수 (Avg. Scores)
Aurora29.87
Mistral-7B22.26

상세 정보 (More details)

{
"accuracy_per_category": {
"医师考试": 0.305,
...

다음은 학습 (Training) 및 추론 (Inference) 단계에서의 GPU 메모리 사용량에 관한 참고 자료입니다. 모든 추론과 학습은 단일 GPU에서 수행되었음을 유의해 주세요.

단계 (Stage)GPU 메모리 사용량 (GPU Memory Usage)
학습 (Training)~43 GiB
추론 (Inference)~25 GiB

@fouvy의 추론 코드를 활용하여, 이제 다음 코드로 Aurora를 빠르게 사용할 수 있습니다.

Gradio를 이용한 추론 (Inference with Gradio)

import gradio as gr
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, StoppingCriteria, StoppingCriteriaList, TextIteratorStreamer
...
Test 1 (Mixtral-8x7B-Instruct-v0.1)
inference speed: 13.004695 tok/s
After inference:
...

cd Aurora
pip install -r requirements.txt

기본 모델 (Base Model):

모델 (Model)다운로드 (Download)
Mixtral-8x7B-Instruct-v0.1[HuggingFace] [HuggingFace-mirror] [ModelScope]

LoRA 모델 (LoRA Model):

모델 (Model)다운로드 (Download)
Aurora[HuggingFace] [ModelScope] [WiseModel]
Aurora-PLus[HuggingFace] [WiseModel]

참고 (Note)

Aurora-Plus는 모든 테스트에 강력히 권장하는 중국어 및 영어 이중 언어 (Bilingual Chinese and English) MoE (Mixture-of-Experts) 모델입니다!

거대한 모델 파라미터는 작업을 관리하기에 불편할 수 있으므로, 추론 전에 기본 모델과 병합될 LoRA 가중치 (LoRA weights)를 제공합니다. 이에 대해 걱정하실 필요는 없습니다.

웹 (Web):

CUDA_VISIBLE_DEVICES=0 python src/web_demo.py \
--model_name_or_path ./Mixtral-8x7B-Instruct-v0.1 \
--checkpoint_dir Aurora \
...

그 후 다음 주소를 방문할 수 있습니다: http://127.0.0.1:7860/

CLI

CUDA_VISIBLE_DEVICES=0 python src/cli_demo.py \
--model_name_or_path ./Mixtral-8x7B-Instruct-v0.1 \
--checkpoint_dir Aurora \
...

API

CUDA_VISIBLE_DEVICES=0 python src/api_demo.py \
--model_name_or_path ./Mixtral-8x7B-Instruct-v0.1 \
--checkpoint_dir Aurora \
...

특정 체크포인트 (checkpoint)의 가중치를 로드해야 하는 경우, 다음과 같이 설정할 수 있습니다: --checkpoint_dir Aurora/checkpoint-6000

.

단일 GPU를 보유하고 있으며 해당 GPU의 메모리 크기가 48GB보다 크다면, 직접 모델을 학습시킬 수 있습니다.

MoE 모델 학습하기

CUDA_VISIBLE_DEVICES=5 python src/train_bash.py \
--stage sft \
--model_name_or_path ./Mixtral-8x7B-Instruct-v0.1 \
...

--quantization_bit 4QLoRA를 사용함을 의미하며, 만약 더 큰 GPU 메모리를 보유하고 있다면 해당 옵션을 제거하고 LoRA를 사용할 수 있습니다.

MoE 모델 평가하기

CUDA_VISIBLE_DEVICES=0 python src/evaluate.py \
--model_name_or_path ./Mixtral-8x7B-Instruct-v0.1 \
--checkpoint_dir Aurora/checkpoint-5000 \
...

본 연구는 주로 마카오 폴리테크닉 대학교 (Macao Polytechnic University) 응용과학부에서 수행되었습니다. 본 연구에 사용된 컴퓨팅 자원은 AWS 서버로부터 제공받았습니다. 저희가 사용한 미세 조정 (fine-tuning) 프레임워크는 LLaMA-Factory이며, 이는 저희 작업에 많은 편의성을 제공해 주었습니다. 또한 shareAI, stanford_alpaca, GPT-4-LLM과 같은 오픈 소스 커뮤니티의 공개 데이터셋에도 감사드립니다. 무엇보다도 기술 개발의 미래를 극적으로 변화시킬 새로운 기술 붐을 선도하고 있는 Mistral AI에 깊은 감사를 표합니다.

저희의 작업이 도움이 되었다면, 자유롭게 인용해 주시기 바랍니다.

@misc{wang2023auroraactivating,
title={Aurora:Activating Chinese chat capability for Mixtral-8x7B sparse Mixture-of-Experts through Instruction-Tuning},
author={Rongsheng Wang and Haoming Chen and Ruizhe Zhou and Yaofei Duan and Kunyan Cai and Han Ma and Jiaxi Cui and Jian Li and Patrick Cheong-Iao Pang and Yapeng Wang and Tao Tan},
...

Apache 2.0 라이선스를 준수해 주세요.

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub Codex tools의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0