datawhalechina/self-llm

본 프로젝트는 오픈 소스 대규모 언어 모델(LLM), 국내 초보자 대상, Linux 플랫폼 기반의 중국인을 위한 전용 대규모 언어 모델 튜토리얼입니다. 다양한 오픈 소스 대규모 언어 모델을 대상으로 환경 설정, 로컬 배포, 효율적인 미세 조정(Fine-tuning) 등의 기술을 포함한 전체 프로세스 가이드를 제공하여, 오픈 소스 대규모 언어 모델의 배포, 사용 및 응용 프로세스를 간소화합니다. 이를 통해 더 많은 일반 학생과 연구자들이 오픈 소스 대규모 언어 모델을 더 잘 사용할 수 있도록 하며, 오픈 소스이자 자유로운 대규모 언어 모델이 일반 학습자의 삶에 더 빠르게 융합되도록 돕습니다.

본 프로젝트의 주요 내용은 다음과 같습니다:

Linux 플랫폼 기반의 오픈 소스 LLM 환경 설정 가이드: 다양한 모델 요구 사항에 맞춰 서로 다른 상세 환경 설정 단계를 제공합니다.
국내외 주요 오픈 소스 LLM의 배포 및 사용 튜토리얼: LLaMA, ChatGLM, InternLM 등을 포함합니다.
오픈 소스 LLM의 배포 응용 지도: 커맨드 라인 호출, 온라인 Demo 배포, LangChain 프레임워크 통합 등을 포함합니다.
오픈 소스 LLM의 전량 미세 조정(Full Fine-tuning) 및 효율적인 미세 조정 방법: 분산 전량 미세 조정, LoRA, ptuning 등을 포함합니다.

프로젝트의 주요 내용은 튜토리얼이며, 더 많은 학생과 미래의 종사자들이 오픈 소스 대규모 언어 모델의 사용 방법을 이해하고 익숙해지도록 하는 것입니다! 누구든지 issue를 제기하거나 PR을 제출하여 이 프로젝트를 함께 구축하고 유지 관리할 수 있습니다.

깊이 있게 참여하고 싶은 학생은 저희에게 연락해 주세요. 프로젝트 유지 관리자로 합류시켜 드리겠습니다.

학습 제안: 본 프로젝트의 학습 제안은 환경 설정을 먼저 학습한 후, 모델의 배포 및 사용을 학습하고, 마지막으로 미세 조정을 학습하는 것입니다. 환경 설정이 기초이고, 모델의 배포 및 사용이 기초이며, 미세 조정은 심화 단계이기 때문입니다. 초보자는 Qwen1.5, InternLM2, MiniCPM 등의 모델을 우선적으로 선택하여 학습할 수 있습니다.

심화 학습 추천: 본 프로젝트를 학습한 후 대규모 언어 모델의 핵심 원리를 더 깊이 이해하고 싶고, 자신만의 대규모 언어 모델을 처음부터 직접 훈련하기를 갈망한다면, Datawhale의 또 다른 오픈 소스 프로젝트인 Happy-LLM — 처음부터 시작하는 대규모 언어 모델 원리와 실습 튜토리얼을 주목할 것을 강력히 추천합니다. 이 프로젝트는 대규모 언어 모델의 저층 메커니즘을 깊이 탐구하고 완전한 훈련 프로세스를 마스터할 수 있도록 안내합니다.

참고: 대규모 언어 모델의 구성 요소와 RAG, Agent, Eval 등의 작업을 처음부터 직접 작성하는 법을 알고 싶은 학생은 Datawhale의 또 다른 프로젝트인 Tiny-Universe를 학습할 수 있습니다. 대규모 언어 모델은 현재 딥러닝 분야의 핫이슈이지만, 기존의 대부분의 대규모 언어 모델 튜토리얼은 API를 호출하여 대규모 언어 모델 애플리케이션을 완성하는 법을 가르치는 데 그치며, 모델 구조, RAG, Agent 및 Eval을 원리 수준에서 명확하게 설명하는 경우는 드뭅니다. 따라서 이 저장소는 API 호출 형식을 사용하지 않고 전부 직접 작성하여 대규모 언어 모델의 RAG, Agent, Eval 작업을 완료하도록 제공합니다.

참고: 본 프로젝트를 학습하기 전에 대규모 언어 모델의 이론 부분을 학습하고 싶은 학생이 있을 수 있습니다. LLM의 이론적 기초를 더 깊이 학습하고 이론을 바탕으로 LLM을 더 깊이 인식하고 응용하고 싶다면, Datawhale의 so-large-llm 강의를 참고할 수 있습니다.

참고: 본 과정을 학습한 후 직접 대규모 언어 모델 애플리케이션을 개발하고 싶은 학생은 Datawhale의 '대규모 언어 모델 애플리케이션 개발 실습' 강의를 참고할 수 있습니다. 이 프로젝트는 초보 개발자를 대상으로 하는 대규모 언어 모델 애플리케이션 개발 튜토리얼로, 알리바바 클라우드(Aliyun) 서버를 기반으로 개인 지식 베이스 어시스턴트 프로젝트와 결합하여 학생들에게 완전한 대규모 언어 모델 애플리케이션 개발 프로세스를 제시하는 것을 목표로 합니다.

대규모 언어 모델이란 무엇인가?

대규모 언어 모델(LLM)은 좁은 의미로는 딥러닝 알고리즘을 기반으로 훈련된 자연어 처리(NLP) 모델을 의미하며, 주로 자연어 이해 및 생성 등의 분야에 응용됩니다. 넓은 의미로는 컴퓨터 비전(CV) 대규모 모델, 멀티모달(Multimodal) 대규모 모델 및 과학 계산 대규모 모델 등을 포함합니다.

수많은 모델이 경쟁하는 시대에 오픈 소스 LLM이 끊임없이 등장하고 있습니다. 현재 국내외에는 이미 수많은 우수한 오픈 소스 LLM이 나타났습니다. 국외에는 LLaMA, Alpaca 등이 있고, 국내에는 ChatGLM, BaiChuan, InternLM(书生·浦语) 등이 있습니다. 오픈 소스 LLM은 사용자의 로컬 배포와 프라이빗 미세 조정을 지원하므로, 누구나 오픈 소스 LLM을 기반으로 자신만의 독특한 대규모 언어 모델을 만들 수 있습니다.

그러나 현재 일반 학생과 사용자가 이러한 대규모 모델을 사용하려면 모델의 배포와 사용을 완료할 수 있는 일정 수준의 기술 능력을 갖추어야 합니다. 끊임없이 등장하며 각기 다른 특성을 가진 오픈 소스 LLM 중에서 하나의 응용 방법을 빠르게 파악하는 것은 상당히 도전적인 과제입니다.

본 프로젝트는 우선 핵심 기여자의 경험을 바탕으로 국내외 주요 오픈 소스 LLM의 배포, 사용 및 미세 조정 튜토리얼을 구현하는 것을 목표로 합니다. 주요 LLM의 관련 부분을 구현한 후, 우리는 공동 창작자들을 충분히 모아 이 오픈 소스 LLM의 세계를 풍성하게 만들고, 더 많고 더 포괄적인 특색 있는 LLM 튜토리얼을 만들어 나가고자 합니다. 작은 불꽃들이 모여 바다를 이룹니다.

우리는 자유롭고 평등한 오픈 소스 정신으로, 더 웅장하고 광활한 LLM 세계를 포용하며 LLM과 대중을 잇는 사다리가 되고자 합니다.

본 프로젝트는 다음과 같은 학습자에게 적합합니다:

LLM을 사용하거나 체험하고 싶지만, 관련 API를 무조건적으로 얻거나 사용할 수 없는 경우;
LLM을 장기적이고 저비용으로 대량 응용하기를 원하는 경우;
오픈 소스 LLM에 관심이 있고, 직접 오픈 소스 LLM을 다뤄보고 싶은 경우;
NLP를 공부 중이며, LLM을 더 깊이 학습하기를 원하는 경우;
오픈 소스 LLM을 결합하여 특정 분야의 특색 있는 프라이빗 LLM을 만들고 싶은 경우;
그리고 가장 광범위하고 일반적인 학생 집단.

본 프로젝트는 환경 설정 및 사용, 배포 응용, 미세 조정 등을 포함한 오픈 소스 LLM 애플리케이션의 전체 프로세스를 중심으로 조직될 예정이며, 각 부분은 주요 및 특색 있는 오픈 소스 LLM을 다룹니다.

Chat-嬛嬛 (Chat-Zhenhuan): Chat-Zhenhuan은 《견환전(甄嬛传)》 대본에 등장하는 견환의 모든 대사와 문장을 활용하여, LLM 기반의 LoRA 미세 조정 (Fine-tuning)을 통해 견환의 말투를 모사하도록 만든 채팅 언어 모델입니다.

Tianji-天机 (Tianji): Tianji는 인간관계와 사회적 상호작용 시나리오를 기반으로 하며, 프롬프트 엔지니어링 (Prompt Engineering), 에이전트 (Agent) 제작, 데이터 수집 및 모델 미세 조정, RAG 데이터 정제 및 사용 등 전체 프로세스를 다루는 대규모 언어 모델 (LLM) 시스템 애플리케이션 튜토리얼입니다.

AMChat: AM (Advanced Mathematics) chat은 수학 지식과 고등 수학 문제 및 해설이 통합된 대규모 언어 모델입니다. 이 모델은 수학 및 고등 수학 문제와 그 풀이가 융합된 데이터셋을 사용하며, InternLM2-Math-7B 모델을 기반으로 xtuner을 통해 미세 조정되어 고등 수학 문제를 해결하기 위해 특별히 설계되었습니다.

디지털 생명 (Digital Life): 본 프로젝트는 저를 프로토타입으로 하여 특제 데이터셋을 이용해 대규모 언어 모델을 미세 조정하며, 저의 개성적 특징을 진정으로 반영할 수 있는 AI 디지털 휴먼을 만드는 데 주력합니다. 여기에는 저의 말투, 표현 방식, 사고 패턴 등이 포함되나 이에 국한되지 않습니다. 따라서 일상적인 대화나 기분 공유 시, 마치 제가 그들 곁에 있는 것처럼 친숙하고 편안한 방식으로 소통합니다. 전체 프로세스는 전이 및 복제가 가능하며, 핵심 강점은 데이터셋 제작에 있습니다.

✨ 50개 이상의 주요 대규모 언어 모델 지원 완료 ✨

각 모델마다 완전한 배포, 미세 조정 및 사용 튜토리얼을 제공합니다.

📖 전체 모델 목록 및 튜토리얼 보기 |
🎯 빠른 시작

|
• Kimi-K2.5 • Step-3.5-Flash • GLM-4.7-Flash • Gemma3 • MiniMax-M3 • MiniMax-M2.5 • MiniMax-M2 • Qwen3 • Qwen3-VL • SpatialLM • Hunyuan3D-2 • Qwen2-VL • MiniCPM-o • Qwen2.5-Coder • DeepSeek-Coder-V2 • gpt-oss-20b • GLM-4.1-Thinking |
• DeepSeek-R1 • InternLM3 • phi4 • GLM-4.5-Air • Hunyuan-A13B • DeepSeek • Baichuan • InternLM • Kimi • ERNIE-4.5 • Llama4 • Apple OpenELM |
• Llama3.1 • Gemma-2 • Qwen2.5 • Qwen2 • GLM-4 • Qwen 1.5 • phi-3 • MiniCPM • Yi 零一万物 • Yuan2.0 • Yuan2.0-M32 • 哔哩哔哩 Index |
• CharacterGLM • BlueLM • Qwen-Audio • TransNormerLLM • Atom • ChatGLM3 • Qwen2-57B-A14B-Instruct • Qwen2-72B-Instruct • Qwen2-7B-Instruct • InternLM2-20B • Tele-Chat • XVERSE2 |

🚀 AMD GPU 플랫폼 지원 모델

각 모델마다 완전한 AMD 환경 구성 및 배포 튜토리얼을 제공합니다.

본 프로젝트에 대한 AMD University Program의 지원에 감사드립니다.

📖 전체 AMD 플랫폼 모델 목록 및 튜토리얼 보기

|
• 구글 Gemma3 • AMD 환경 준비 및 구성 • NPU 추론 가속 지원 |
• Qwen3 • lemonade-server SDK 배포 • Ryzen AI 300 시리즈 최적화 |

🚀 Ascend NPU 플랫폼 지원 모델

각 모델마다 완전한 Ascend NPU 환경 구성 및 배포 튜토리얼을 제공합니다.

📖 전체 Ascend NPU 플랫폼 모델 목록 및 튜토리얼 보기

|
• Qwen3.6 • vLLM-ascend 배포 호출 |
• Qwen3 • Ascend NPU 환경 구성 일반 가이드 • MindIE 서비스화 배포 호출 • vLLM-ascend 배포 호출 • sglang-ascend 배포 호출 |
• 대규모 모델 서비스화 성능 및 정밀도 테스트 • AISBench 테스트 도구 환경 구성 • Ascend 대규모 모델 서비스화 성능 테스트 • Ascend 대규모 모델 서비스화 정밀도 테스트 |

Coming Soon!

🚀 더 많은 플랫폼 지원 예정 (Apple M 시리즈 기기 테스트 중), 기대해 주세요!
🤝 Ascend, Moore Threads MUSA, Metax 등 플랫폼의 기술 지원, 하드웨어 지원 또는 기여 참여를 환영합니다.
🌟 각 플랫폼 개발자들의 공동 구축 및 공유를 환영하며, 더 많은 국산 하드웨어 생태계에서 대규모 모델 기술이 번영할 수 있도록 추진해 나갑시다!
宋志学(不要葱姜蒜)- 프로젝트 책임자 (Datawhale 멤버)
邹雨衡- 프로젝트 책임자 (Datawhale 멤버-대외경제무역대학교)
刘十一- Ascend 전담 구역 책임자 (Datawhale 멤버-Jingying 조교)
姜舒凡 (콘텐츠 크리에이터-Datawhale 멤버)
郭宣伯 (콘텐츠 크리에이터-베이징 항공우주대학교)
林泽毅 (콘텐츠 크리에이터-SwanLab 제품 책임자)
林恒宇 (콘텐츠 크리에이터-광둥 둥스 학원-Jingying 조교)
王泽宇 (콘텐츠 크리에이터-타이위안 공업대학교-Jingying 조교)
郭志航 (콘텐츠 크리에이터)
陈榆 (콘텐츠 크리에이터-Google 개발자 머신러닝 기술 전문가)
肖鸿儒 (Datawhale 멤버-동제대학교)
张帆 (콘텐츠 크리에이터-Datawhale 멤버)
李娇娇 (Datawhale 멤버)
高立业 (콘텐츠 크리에이터-DataWhale 멤버)
Kailigithub (Datawhale 멤버)
丁悦 (Datawhale-Jingying 조교)
谢好冉 (콘텐츠 크리에이터-Jingying 조교)
惠佳豪 (Datawhale-홍보 대사)
王茂霖 (콘텐츠 크리에이터-Datawhale 멤버)
孙健壮 (콘텐츠 크리에이터-대외경제무역대학교)
郑皓桦 (콘텐츠 크리에이터)
荞麦 (콘텐츠 크리에이터-Datawhale 멤버)
骆秀韬 (콘텐츠 크리에이터-Datawhale 멤버-Likelihood Lab)
李柯辰 (Datawhale 멤버)
程宏 (콘텐츠 크리에이터-Datawhale 의향 멤버)
李秀奇 (콘텐츠 크리에이터-DataWhale 의향 멤버)
余洋 (콘텐츠 크리에이터-안후이 이공대학교 부교수-Datawhale 멤버)
陈思州 (Datawhale 멤버)
颜鑫 (Datawhale 멤버)
杜森 (콘텐츠 크리에이터-Datawhale 멤버-난양 이공학원)
散步 (Datawhale 멤버)
郑远婧 (콘텐츠 크리에이터-Jingying 조교-푸저우 대학교)
Swiftie (Xiaomi NLP 알고리즘 엔지니어)
张友东 (콘텐츠 크리에이터-Datawhale 멤버)
张晋 (콘텐츠 크리에이터-Datawhale 멤버)
娄天奥 (콘텐츠 크리에이터-중국과학원대학교-Jingying 조교)
小罗 (콘텐츠 크리에이터-Datawhale 멤버)
邓恺俊 (콘텐츠 크리에이터-Datawhale 멤버)
赵文恺 (콘텐츠 크리에이터-타이위안 공업대학교-Jingying 조교)
王熠明 (콘텐츠 크리에이터-Datawhale 멤버)
黄柏特 (콘텐츠 크리에이터-시안 전자과기대학교)
左春生 (콘텐츠 크리에이터-Datawhale 멤버)
杨卓 (콘텐츠 크리에이터-시안 전자과기대학교-Jingying 조교)
付志远 (콘텐츠 크리에이터-하이난 대학교)
三水 (콘텐츠 크리에이터-Jingying 조교)
樊奇 (콘텐츠 크리에이터-상하이 교통대학교)
陈辅元 (콘텐츠 크리에이터-Datawhale 멤버)
谭逸珂 (콘텐츠 크리에이터-대외경제무역대학교)
何至轩 (콘텐츠 크리에이터-Jingying 조교)
康婧淇 (콘텐츠 크리에이터-Datawhale 멤버)
杨晨旭 (콘텐츠 크리에이터-타이위안 공업대학교-Jingying 조교)
赵伟 (콘텐츠 크리에이터-Jingying 조교)
苏向标 (콘텐츠 크리에이터-광저우 대학교-Jingying 조교)
陈睿 (콘텐츠 크리에이터-Xi'an Jiaotong-Liverpool 대학교-Jingying 조교)
张龙斐 (콘텐츠 크리에이터-Jingying 조교)
孙超 (콘텐츠 크리에이터-Datawhale 멤버)
卓堂越 (콘텐츠 크리에이터-Jingying 조교)
fancy (콘텐츠 크리에이터-Jingying 조교)
谭斐然 (시안 전자과기대학교-Jingying 조교)

참고: 순위는 기여도에 따라 정렬되었습니다.

본 프로젝트에 도움과 지원을 주신 @Sm1les님께 특별히 감사드립니다.
본 프로젝트를 지원해 주신 AMD University Program에 감사드립니다.
일부 LoRA 코드 및 설명 참고 저장소: https://github.com/zyds/transformers-code.git
의견이 있으시면 DataWhale로 연락해 주시기 바라며, 많은 Issue 제기를 환영합니다.
튜토리얼에 기여해 주신 다음 학생분들께 특별히 감사드립니다!

datawhalechina/self-llm

요약

핵심 포인트

댓글