WangRongsheng/Aurora

Rongsheng Wang, Haoming Chen, Ruizhe Zhou, Yaofei Duan, Kunyan Cai, Han Ma, Jiaxi Cui, Jian Li, Patrick Cheong-Iao Pang, Yapeng Wang, Tao Tan☨

☨교신 저자 (Corresponding author)

중요 사항

DPO 기반의 Aurora 사용을 강력히 권장합니다! 👉여기 GPU가 부족하거나 실행을 위한 튜토리얼이 없다면, 👉Xian Gong Cloud Aurora 이미지를 사용하여 클릭 한 번으로 실행하는 것을 권장합니다. 또한 저희의 👉튜토리얼 영상도 확인하실 수 있습니다. 현재 Ollama를 사용하여 로컬에서 Aurora를 사용하는 것을 지원합니다. 👉여기

기존 연구에 따르면, 기계 생성 지시 이행 (instruction-following) 데이터를 활용하여 대규모 언어 모델 (LLMs)을 미세 조정 (refining)하면, 사람이 작성한 지시 사항 없이도 새로운 작업에 대해 인상적인 제로샷 (zero-shot) 능력을 발휘할 수 있음이 입증되었습니다. 본 논문에서는 Mixtral-8x7B 희소 전문가 혼합 (sparse Mixture-of-Experts) 모델의 중국어 대화 능력을 향상시키는 것을 목표로 세 가지 중국어 지시 이행 데이터셋을 체계적으로 조사, 전처리 및 통합합니다. 이 정밀하게 처리된 데이터셋을 통한 지시 미세 조정 (instruction fine-tuning)을 통해, 저희는 "Aurora"라고 명명된 Mixtral-8x7B 희소 전문가 혼합 (sparse Mixture-of-Experts) 모델을 성공적으로 구축했습니다. Aurora의 성능을 평가하기 위해 C-Eval, MMLU, CMMLU라는 세 가지 널리 알려진 벤치마크 테스트를 활용합니다. 실증적 연구를 통해 Mixtral-8x7B 희소 전문가 혼합 (sparse Mixture-of-Experts) 모델에 적용된 지시 미세 조정 (instruction fine-tuning)의 효과를 검증했습니다. 본 연구는 희소 전문가 혼합 (sparse expert-mixed) 모델에 대한 지시 미세 조정 (instruction fine-tuning)을 수행한 선구적인 사례이며, 이 모델 아키텍처의 능력을 향상시키는 데 있어 중요한 돌파구를 마련했습니다.

LLM 평가가 여전히 큰 과제로 남아 있다는 것은 잘 알려져 있습니다. 저희는 연구에서 세 가지 공개 벤치마크를 사용합니다.

BLEU 및 ROUGE에 대한 서로 다른 체크포인트 (checkpoints)의 점수.

모델 체크포인트 (Model Checkpoints)	BLEU-4	ROUGE-1	ROUGE-2	ROUGE-l
checkpoints-6000	18.4134	38.2669	18.9526	26.572
...
Aurora의 성능은 의료 평가 벤치마크인 CMB에서 테스트되었습니다.

모델 (Model)	평균 점수 (Avg. Scores)
Aurora	29.87
Mistral-7B	22.26

상세 정보 (More details)

{
"accuracy_per_category": {
"医师考试": 0.305,
...

다음은 학습 (Training) 및 추론 (Inference) 단계에서의 GPU 메모리 사용량에 관한 참고 자료입니다. 모든 추론과 학습은 단일 GPU에서 수행되었음을 유의해 주세요.

단계 (Stage)	GPU 메모리 사용량 (GPU Memory Usage)
학습 (Training)	~43 GiB
추론 (Inference)	~25 GiB

@fouvy의 추론 코드를 활용하여, 이제 다음 코드로 Aurora를 빠르게 사용할 수 있습니다.

Gradio를 이용한 추론 (Inference with Gradio)

import gradio as gr
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, StoppingCriteria, StoppingCriteriaList, TextIteratorStreamer
...

Test 1 (Mixtral-8x7B-Instruct-v0.1)
inference speed: 13.004695 tok/s
After inference:
...


cd Aurora
pip install -r requirements.txt

기본 모델 (Base Model):

모델 (Model)	다운로드 (Download)
Mixtral-8x7B-Instruct-v0.1	[HuggingFace] [HuggingFace-mirror] [ModelScope]

LoRA 모델 (LoRA Model):

모델 (Model)	다운로드 (Download)
Aurora	[HuggingFace] [ModelScope] [WiseModel]
Aurora-PLus	[HuggingFace] [WiseModel]

참고 (Note)

Aurora-Plus는 모든 테스트에 강력히 권장하는 중국어 및 영어 이중 언어 (Bilingual Chinese and English) MoE (Mixture-of-Experts) 모델입니다!

거대한 모델 파라미터는 작업을 관리하기에 불편할 수 있으므로, 추론 전에 기본 모델과 병합될 LoRA 가중치 (LoRA weights)를 제공합니다. 이에 대해 걱정하실 필요는 없습니다.

웹 (Web):

CUDA_VISIBLE_DEVICES=0 python src/web_demo.py \
--model_name_or_path ./Mixtral-8x7B-Instruct-v0.1 \
--checkpoint_dir Aurora \
...

그 후 다음 주소를 방문할 수 있습니다: http://127.0.0.1:7860/

CLI

CUDA_VISIBLE_DEVICES=0 python src/cli_demo.py \
--model_name_or_path ./Mixtral-8x7B-Instruct-v0.1 \
--checkpoint_dir Aurora \
...

API

CUDA_VISIBLE_DEVICES=0 python src/api_demo.py \
--model_name_or_path ./Mixtral-8x7B-Instruct-v0.1 \
--checkpoint_dir Aurora \
...

특정 체크포인트 (checkpoint)의 가중치를 로드해야 하는 경우, 다음과 같이 설정할 수 있습니다: --checkpoint_dir Aurora/checkpoint-6000

단일 GPU를 보유하고 있으며 해당 GPU의 메모리 크기가 48GB보다 크다면, 직접 모델을 학습시킬 수 있습니다.

MoE 모델 학습하기

CUDA_VISIBLE_DEVICES=5 python src/train_bash.py \
--stage sft \
--model_name_or_path ./Mixtral-8x7B-Instruct-v0.1 \
...

--quantization_bit 4는 QLoRA를 사용함을 의미하며, 만약 더 큰 GPU 메모리를 보유하고 있다면 해당 옵션을 제거하고 LoRA를 사용할 수 있습니다.

MoE 모델 평가하기

CUDA_VISIBLE_DEVICES=0 python src/evaluate.py \
--model_name_or_path ./Mixtral-8x7B-Instruct-v0.1 \
--checkpoint_dir Aurora/checkpoint-5000 \
...

본 연구는 주로 마카오 폴리테크닉 대학교 (Macao Polytechnic University) 응용과학부에서 수행되었습니다. 본 연구에 사용된 컴퓨팅 자원은 AWS 서버로부터 제공받았습니다. 저희가 사용한 미세 조정 (fine-tuning) 프레임워크는 LLaMA-Factory이며, 이는 저희 작업에 많은 편의성을 제공해 주었습니다. 또한 shareAI, stanford_alpaca, GPT-4-LLM과 같은 오픈 소스 커뮤니티의 공개 데이터셋에도 감사드립니다. 무엇보다도 기술 개발의 미래를 극적으로 변화시킬 새로운 기술 붐을 선도하고 있는 Mistral AI에 깊은 감사를 표합니다.

저희의 작업이 도움이 되었다면, 자유롭게 인용해 주시기 바랍니다.

@misc{wang2023auroraactivating,
title={Aurora:Activating Chinese chat capability for Mixtral-8x7B sparse Mixture-of-Experts through Instruction-Tuning},
author={Rongsheng Wang and Haoming Chen and Ruizhe Zhou and Yaofei Duan and Kunyan Cai and Han Ma and Jiaxi Cui and Jian Li and Patrick Cheong-Iao Pang and Yapeng Wang and Tao Tan},
...

Apache 2.0 라이선스를 준수해 주세요.

Insights

WangRongsheng/Aurora

요약

핵심 포인트

상세 정보 (More details)

Gradio를 이용한 추론 (Inference with Gradio)

MoE 모델 학습하기

MoE 모델 평가하기

댓글

Oracle의 주가 폭락으로 Larry Ellison은 10개월 만에 2,130억 달러를 잃었습니다. 투자자들은 저점 매수를 해야 할까요?

T-Mobile, 수익 예상치 상회 및 현금 흐름 전망 상향에도 불구하고 주가 하락 (NASDAQ:TMUS)

유가 급등으로 인플레이션 우려 재점화, ECB는 금리 동결

Nestlé, 생수 사업부의 절반을 Platinum Equity에 매각

Oracle의 주가 폭락으로 Larry Ellison은 10개월 만에 2,130억 달러를 잃었습니다. 투자자들은 저점 매수를 해야 할까요?

T-Mobile, 수익 예상치 상회 및 현금 흐름 전망 상향에도 불구하고 주가 하락 (NASDAQ:TMUS)

유가 급등으로 인플레이션 우려 재점화, ECB는 금리 동결

Nestlé, 생수 사업부의 절반을 Platinum Equity에 매각