
nanoGPT는 OpenWebText에서 GPT-2 (124M) 성능을 재현하는 약 300줄 규모의 최소한의 GPT 학습 루프를 제공합니다.
요약
nanoGPT는 GPT-2(124M) 성능을 재현할 수 있는 약 300줄 규모의 최소한의 GPT 학습 루프를 제공합니다. 깔끔한 코드베이스를 통해 모델 학습 및 커스텀 데이터셋 학습을 용이하게 지원합니다.
핵심 포인트
- 약 300줄의 간결하고 해킹 가능한 코드베이스 제공
- 단일 8xA100 노드에서 약 4일 만에 GPT-2 학습 가능
- OpenAI의 사전 학습된 GPT-2 가중치 로드 지원
- Shakespeare 등 커스텀 데이터셋의 문자 단위 학습 지원
nanoGPT는 OpenWebText에서 GPT-2 (124M) 성능을 재현하는 약 300줄 규모의 최소한의 GPT 학습 루프를 제공합니다.
- 약 300줄의 별도 모델 및 학습 파일로 구성된 깔끔하고 해킹 가능한 (hackable) 코드베이스
- 단일 8XA100 노드에서 약 4일 만에 GPT-2 (124M) 학습 가능
- 선택적으로 OpenAI의 사전 학습된 (pretrained) GPT-2 가중치 로드 가능
- Shakespeare와 같은 커스텀 데이터셋에 대한 문자 단위 (character-level) 학습 지원
여기에서 살펴보세요:
AI 자동 생성 콘텐츠
본 콘텐츠는 X @githubprojects (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기