datawhalechina/llm-cookbook

본 프로젝트는 개발자를 위한 대규모 언어 모델 (LLM) 핸드북으로, 국내 개발자들의 실제 요구 사항에 맞춰 LLM 전방위 입문 실습을 주력으로 합니다. 본 프로젝트는 Andrew Ng(吴恩达) 교수님의 대규모 언어 모델 시리즈 강의 내용을 기반으로 하며, 원본 강의 내용을 선별, 번역, 재현 및 최적화하여 프롬프트 엔지니어링 (Prompt Engineering)부터 RAG (Retrieval-Augmented Generation) 개발, 모델 미세 조정 (Fine-tuning)에 이르는 모든 과정을 다룹니다. 국내 학습자에게 가장 적합한 방식으로 국내 개발자들이 LLM 관련 프로젝트를 어떻게 학습하고 입문할 수 있는지 안내합니다.

각 콘텐츠의 특성에 따라 총 11개의 Andrew Ng 교수님의 대규모 언어 모델 강의를 번역 및 재현하였으며, 국내 학습자의 실제 상황을 결합하여 각 강의를 등급별로 분류하고 순서를 정했습니다. 초보자는 먼저 우리의 필수 과정 강의를 체계적으로 학습하여 LLM의 모든 방향에서 반드시 갖춰야 할 기초 기술과 개념을 습득한 후, 선택 과정 강의를 선택적으로 학습하여 자신이 관심 있는 분야에서 지속적으로 탐구하고 학습할 수 있습니다.

만약 여러분이 매우 좋아하지만 아직 우리가 재현하지 않은 Andrew Ng 교수님의 대규모 언어 모델 강의가 있다면, 기존 강의의 형식과 작성 방식을 참고하여 강의를 재현하고 PR (Pull Request)을 제출해 주시기를 환영합니다. PR 검토가 통과되면 강의 내용에 따라 강의 등급을 분류하여 병합할 예정입니다. 모든 개발자의 기여를 환영합니다!

온라인 읽기 주소: 개발자를 위한 LLM 입문 과정 - 온라인 읽기

PDF 다운로드 주소: 개발자를 위한 LLM 입문 튜토리얼 - PDF

영문 원본 주소: Andrew Ng의 대규모 언어 모델 시리즈 강의

LLM은 점진적으로 사람들의 삶을 변화시키고 있습니다. 개발자에게 있어 LLM이 제공하는 API를 기반으로 더 강력한 능력을 갖추고 LLM이 통합된 애플리케이션을 빠르고 편리하게 개발하여, 더 새롭고 실용적인 능력을 간편하게 구현하는 것은 매우 시급하게 학습해야 할 중요한 능력입니다.

Andrew Ng 교수와 OpenAI가 협력하여 출시한 대규모 언어 모델 시리즈 튜토리얼은 대규모 언어 모델 시대 개발자의 기초 기술부터 시작하여, 대규모 언어 모델 API와 LangChain 아키텍처를 기반으로 어떻게 대규모 언어 모델의 강력한 능력을 결합한 애플리케이션을 빠르게 개발할 수 있는지 쉽고 심도 있게 소개합니다. 그중, 《Prompt Engineering for Developers》 튜토리얼은 LLM에 입문하는 개발자를 대상으로 하며, 개발자가 프롬프트 (Prompt)를 구성하고 OpenAI가 제공하는 API를 기반으로 요약, 추론, 변환 등 다양한 공통 기능을 구현하는 방법을 쉽고 심도 있게 소개하는 LLM 개발 입문의 클래식한 튜토리얼입니다. 《Building Systems with the ChatGPT API》 튜토리얼은 LLM 기반 애플리케이션을 개발하고자 하는 개발자를 대상으로 하며, ChatGPT API를 기반으로 완전한 대화 시스템을 구축하는 방법을 간결하고 효과적이며 체계적이고 포괄적으로 소개합니다. 《LangChain for LLM Application Development》 튜토리얼은 클래식한 대규모 언어 모델 오픈소스 프레임워크인 LangChain을 결합하여, LangChain 프레임워크를 기반으로 실용적인 기능과 포괄적인 능력을 갖춘 애플리케이션을 개발하는 방법을 소개합니다. 《LangChain Chat With Your Data》 튜토리얼은 이를 바탕으로 LangChain 아키텍처를 사용하여 개인 프라이빗 데이터와 결합한 개인화된 대규모 언어 모델 애플리케이션을 개발하는 방법을 추가로 소개합니다. 《Building Generative AI Applications with Gradio》와 《Evaluating and Debugging Generative AI》 튜토리얼은 각각 두 가지 실용적인 도구인 Gradio와 W&B를 소개하며, 개발자가 이 두 도구를 결합하여 생성형 AI (Generative AI) 애플리케이션을 구축하고 평가하는 방법을 안내합니다.

위의 튜토리얼들은 개발자가 LLM 기반의 실제 애플리케이션 구축의 길을 시작하기 위해 학습하기에 매우 적합합니다. 따라서 우리는 이 시리즈 강의를 중국어로 번역하고 예제 코드를 재현하였으며, 영상 중 하나에는 중국어 자막을 추가하여 국내 중국어 학습자들이 직접 사용할 수 있도록 지원함으로써 중국어 학습자들이 LLM 개발을 더 잘 학습할 수 있도록 도왔습니다. 또한, 우리는 효과가 거의 유사한 중국어 프롬프트를 구현하여 학습자들이 중국어 문맥에서의 LLM 학습 및 사용을 체감하고, 다국어 문맥에서의 프롬프트 설계와 LLM 개발을 비교하며 익힐 수 있도록 지원합니다. 향후 우리는 더 많은 고급 프롬프트 기술을 추가하여 본 과정의 내용을 풍부하게 하고, 개발자들이 더 많고 정교한 프롬프트 기술을 습득할 수 있도록 도울 것입니다.

기초적인 Python 능력을 갖추고 LLM에 입문하고자 하는 모든 개발자.

《ChatGPT Prompt Engineering for Developers》, 《Building Systems with the ChatGPT API》 등의 튜토리얼은 Andrew Ng 교수와 OpenAI가 공동 출시한 공식 튜토리얼로서, 가까운 미래에 LLM의 중요한 입문 튜토리얼이 될 것입니다. 하지만 현재는 영어 버전만 지원되며 국내 접속이 제한되어 있어, 중국어 버전 및 국내에서 원활하게 접속 가능한 튜토리얼을 만드는 것은 매우 중요한 의미를 갖습니다. 동시에, GPT는 중국어와 영어에 대해 서로 다른 이해 능력을 가지고 있습니다. 본 튜토리얼은 여러 차례의 비교와 실험을 통해 효과가 거의 유사한 중국어 프롬프트를 확정하였으며, 학습자들이 중국어 문맥에서 ChatGPT의 이해 및 생성 능력을 어떻게 향상시킬 수 있는지 연구할 수 있도록 지원합니다.

본 튜토리얼은 기초적인 Python 능력을 갖추고 LLM에 입문하고자 하는 모든 개발자에게 적합합니다.

만약 본 튜토리얼 학습을 시작하고 싶다면, 사전에 다음과 같은 역량을 갖추어야 합니다:

최소 하나 이상의 LLM API (OpenAI를 권장하며, 다른 API를 사용할 경우 다른 튜토리얼을 참고하여 API 호출 코드를 수정해야 할 수 있습니다)
Python Jupyter Notebook 사용 가능 능력

본 튜토리얼은 총 11개의 강의로 구성되어 있으며, 필수 과정(必修类)과 선택 과정(选修类) 두 가지 카테고리로 나뉩니다. 필수 과정은 초보자가 LLM에 입문하기에 가장 적합하다고 판단되는 강의들로, LLM의 모든 방향에서 반드시 숙지해야 할 기초 기술과 개념을 포함하고 있습니다. 저희는 필수 과정을 위해 읽기 좋은 온라인 버전과 PDF 버전을 제작하였으며, 필수 과정을 학습할 때는 저희가 나열한 순서대로 학습하는 것을 권장합니다. 선택 과정은 필수 과정을 바탕으로 한 확장 및 심화 과정으로, RAG (Retrieval-Augmented Generation) 개발, 모델 미세 조정 (Fine-tuning), 모델 평가 (Evaluation) 등 다양한 분야를 포함하고 있어, 학습자가 필수 과정을 마친 후 관심 있는 방향과 강의를 선택하여 학습하기에 적합합니다.

필수 과정은 다음과 같습니다:

개발자를 위한 프롬프트 엔지니어링 (Prompt Engineering). Andrew Ng(吴恩达) 교수님의 《ChatGPT Prompt Engineering for Developers》 강의를 기반으로 제작되었습니다. LLM에 입문하는 개발자를 대상으로 하며, 개발자가 어떻게 프롬프트를 구성하고 OpenAI가 제공하는 API를 기반으로 요약, 추론, 변환 등 다양한 공통 기능을 구현할 수 있는지 쉽고 깊이 있게 소개합니다. 이는 LLM 개발의 첫걸음입니다.
ChatGPT 기반 질의응답 시스템 구축. Andrew Ng 교수님의 《Building Systems with the ChatGPT API》 강의를 기반으로 제작되었습니다. 개발자가 ChatGPT API를 기반으로 어떻게 완전하고 포괄적인 지능형 질의응답 시스템을 개발할 수 있는지 안내합니다. 코드 실습을 통해 ChatGPT 기반 질의응답 시스템 개발의 전체 프로세스를 구현하며, 대규모 언어 모델(LLM)을 기반으로 한 새로운 개발 패러다임을 소개하는 LLM 개발의 실무 기초입니다.
LangChain을 사용한 애플리케이션 개발. Andrew Ng 교수님의 《LangChain for LLM Application Development》 강의를 기반으로 제작되었습니다. LangChain에 대해 심도 있게 소개하여, 학습자가 LangChain을 어떻게 사용하는지 이해하고 LangChain을 기반으로 강력한 능력을 갖춘 완전한 애플리케이션을 개발할 수 있도록 돕습니다.
LangChain을 사용한 개인 데이터 접근. Andrew Ng 교수님의 《LangChain Chat with Your Data》 강의를 기반으로 제작되었습니다. LangChain이 제공하는 개인 데이터 접근 능력을 심화 확장하여, 개발자가 어떻게 LangChain을 사용하여 사용자의 개인 데이터에 접근하고 개인화된 서비스를 제공하는 LLM 애플리케이션을 개발할 수 있는지 안내합니다.

선택 과정은 다음과 같습니다:

Gradio를 사용한 생성형 AI 애플리케이션 구축. Andrew Ng 교수님의 《Building Generative AI Applications with Gradio》 강의를 기반으로 제작되었습니다. 개발자가 Gradio를 사용하여 Python 인터페이스 프로그램을 통해 생성형 AI를 위한 사용자 인터페이스를 어떻게 빠르고 효율적으로 구축할 수 있는지 안내합니다.
생성형 AI 평가 및 개선. Andrew Ng 교수님의 《Evaluating and Debugging Generative AI》 강의를 기반으로 제작되었습니다. wandb와 결합하여 개발자가 생성형 AI 모델을 효과적으로 추적하고 디버깅할 수 있도록 체계적인 방법론과 도구를 제공합니다.
대규모 언어 모델 미세 조정 (Fine-tuning). Andrew Ng 교수님의 《Finetuning Large Language Model》 강의를 기반으로 제작되었습니다. lamini 프레임워크와 결합하여, 개인 데이터를 기반으로 로컬에서 오픈 소스 대규모 언어 모델을 어떻게 쉽고 효율적으로 미세 조정할 수 있는지 설명합니다.
대규모 언어 모델과 의미론적 검색 (Semantic Search). Andrew Ng 교수님의 《Large Language Models with Semantic Search》 강의를 기반으로 제작되었습니다. RAG (검색 증강 생성)를 대상으로 하며, 더 정확하고 효율적인 검색 증강 LLM 생성 효과를 달성하기 위한 다양한 고급 검색 기술을 설명합니다.
Chroma 기반의 고급 검색. Andrew Ng 교수님의 《Advanced Retrieval for AI with Chroma》 강의를 기반으로 제작되었습니다. Chroma를 기반으로 한 고급 검색 기술을 소개하여 검색 결과의 정확성을 높이는 것을 목표로 합니다.
고급 RAG 애플리케이션 구축 및 평가. Andrew Ng 교수님의 《Building and Evaluating Advanced RAG Applications》 강의를 기반으로 제작되었습니다. 고품질 RAG 시스템을 구축하고 구현하는 데 필요한 핵심 기술과 평가 프레임워크를 소개합니다.
LangChain의 Functions, Tools 및 Agents. Andrew Ng 교수님의 《Functions, Tools and Agents with LangChain》 강의를 기반으로 제작되었습니다. LangChain의 새로운 문법을 기반으로 에이전트 (Agent)를 구축하는 방법을 소개합니다.
고급 프롬프트 기술. CoT (Chain of Thought), 자기 일관성 (Self-consistency) 등 다양한 고급 프롬프트 기술의 기초 이론과 코드 구현을 포함합니다.

기타 자료:

이중 언어 자막 영상 주소: Andrew Ng x OpenAI의 Prompt Engineering 강의 전문 번역판

중-영 이중 언어 자막 다운로드: 《ChatGPT 프롬프트 엔지니어링》 비공식 버전 중-영 이중 언어 자막

영상 해설: 개발자를 위한 Prompt Engineering 해설 (디지털 노마드 컨퍼런스)

디렉토리 구조 설명:

content：원래 강의를 기반으로 재현한 이중 언어 버전 코드, 실행 가능한 Notebook, 업데이트 빈도가 가장 높고 업데이트 속도가 가장 빠름.
docs：필수 과정 텍스트 튜토리얼 버전 온라인 읽기 소스, 읽기에 적합한 Markdown.
figures：이미지 파일.

핵심 기여자

邹雨衡-프로젝트 책임자 (Datawhale 멤버-대외경제무역대학교 대학원생)
左春生-프로젝트 책임자 (콘텐츠 크리에이터-Datawhale 멤버)
长琴-프로젝트 발기인 (콘텐츠 크리에이터-Datawhale 멤버-AI 알고리즘 엔지니어)
玉琳-프로젝트 발기인 (콘텐츠 크리에이터-Datawhale 멤버)
徐虎-튜토리얼 편찬자 (콘텐츠 크리에이터-Datawhale 멤버)
刘伟鸿-튜토리얼 편찬자 (콘텐츠 크리에이터-강남대학교 비전일제 대학원생)
Joye-튜토리얼 편찬자 (콘텐츠 크리에이터-데이터 사이언티스트)
高立业 (콘텐츠 크리에이터-DataWhale 멤버-알고리즘 엔지니어)
邓宇文 (콘텐츠 크리에이터-Datawhale 멤버)
魂兮 (콘텐츠 크리에이터-프론트엔드 엔지니어)
宋志学 (콘텐츠 크리에이터-Datawhale 멤버)
韩颐堃 (콘텐츠 크리에이터-Datawhale 멤버)
陈逸涵 (콘텐츠 크리에이터-Datawhale 지망 멤버-AI 애호가)
仲泰 (콘텐츠 크리에이터-Datawhale 멤버)
万礼行 (콘텐츠 크리에이터-비디오 번역자)
王熠明 (콘텐츠 크리에이터-Datawhale 멤버)
曾浩龙 (콘텐츠 크리에이터-Datawhale 지망 멤버-JLU AI 대학원생)
小饭同学 (콘텐츠 크리에이터)
孙韩玉 (콘텐츠 크리에이터-알고리즘 양자화 배포 엔지니어)
张银晗 (콘텐츠 크리에이터-Datawhale 멤버)
张晋 (콘텐츠 크리에이터-Datawhale 멤버)
李娇娇 (콘텐츠 크리에이터-Datawhale 멤버)
邓恺俊 (콘텐츠 크리에이터-Datawhale 멤버)
范致远 (콘텐츠 크리에이터-Datawhale 멤버)
周景林 (콘텐츠 크리에이터-Datawhale 멤버)
诸世纪 (콘텐츠 크리에이터-알고리즘 엔지니어)
Zhang Yixin (콘텐츠 크리에이터-IT 애호가)
Sarai (콘텐츠 크리에이터-AI 애플리케이션 애호가)

기타

@Sm1les, @LSGOMYP 님의 본 프로젝트에 대한 도움과 지원에 특별히 감사드립니다;
이중 언어 자막을 제공해 준 GithubDaily에 감사드립니다;
의견이 있다면 Datawhale로 연락해 주시기 바라며, 많은 Issues 제기를 환영합니다;
튜토리얼에 기여해 주신 다음 학생분들께 특별히 감사드립니다!

Made with contrib.rocks.

Datawhale는 데이터 과학 및 AI 분야에 집중하는 오픈소스 조직으로, 다양한 분야의 대학 및 유명 기업의 우수한 학습자들이 모여 오픈소스 정신과 탐구 정신을 가진 팀원들이 결집된 곳입니다. 위챗(WeChat)에서 공식 계정 Datawhale을 검색하여 저희와 함께할 수 있습니다.

본 저작물은 크리에이티브 커먼즈 저작자표시-비영리-동일조건변경허락 4.0 국제 라이선스(CC BY-NC-SA 4.0)에 따라 이용할 수 있습니다.

datawhalechina/llm-cookbook

요약

핵심 포인트

댓글