나노와일 (Nanowhale) 소개: 에이전트로 전적으로 사전 학습된 초소형 딥시크 모델
요약
나노와일(Nanowhale)은 에이전트 기반으로 완전히 사전 학습된 초소형 딥시크(DeepSeek) 모델입니다. 이 모델은 ml-intern이라는 시스템을 통해 개발되었으며, 실제 연구 및 공학적 문제를 자율적으로 해결하며 훈련되었습니다. 특히 1억만 파라미터 규모의 MoE 구조를 목표로 축소하고, `torch.compile` 등을 활용하여 성능과 효율성을 극대화했습니다.
핵심 포인트
- 나노와일은 에이전트 기반으로 사전 학습된 초소형(1억만 파라미터) 딥시크 모델입니다.
- 개발 과정에서 ml-intern 시스템을 활용하여 오버플로우 디버깅, 차원 축소 등 실제 공학적 문제를 자율적으로 해결했습니다.
- MoE 구조를 유지하면서도 소규모 환경에 최적화되었으며, `torch.compile` 등을 통해 훈련 속도를 개선했습니다.
나노와일 (Nanowhale)
! 에이전트로 전적으로 사전 학습된 초소형 딥시크 (DeepSeek) 모델.
@karpathy 의 나노채트 (nanochat) 를 영감으로, ml-intern 에는 모든 딥시크 v4 의 구조적 진보들을 갖춘 초소형 MoE 를 훈련시키는 작업을 부여했습니다.
엔드 투 엔드 테스트를 위해 1 억만 파라미터의 MoE 를 훈련시켰습니다.
ml-intern 은 다음과 같은 실제 연구 및 공학적 문제를 자율적으로 처리했습니다:
소규모에서 Hyper-Connections 의 오버플로우 (overflow) 디버깅
약 1 억만 파라미터를 목표로 축소할 차원 선택
torch.compile 를 사용하여 훈련 속도를 높인 후 파라미터 이름 수정
코드와 모델을 여기에서 시도해 볼 수 있습니다:
- 코드: https://github.com/huggingface/na nowhale …
- 베이스 모델: https://huggingface.co/cmpatino/nanow hale-100m-base …
- Instruct 모델: https://huggingface.co/cmpatino/nanow hale-100m …
@andrew_n_carr 의 이 멋진 도구에서 구조를 확인해 볼 수 있습니다:
https://hfviewer.com/HuggingFaceTB/ nanowhale-100m …
AI 자동 생성 콘텐츠
본 콘텐츠는 X @_lewtun (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기