본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 06. 15:26

나노와일 (Nanowhale) 소개: 에이전트로 전적으로 사전 학습된 초소형 딥시크 모델

요약

나노와일(Nanowhale)은 에이전트 기반으로 완전히 사전 학습된 초소형 딥시크(DeepSeek) 모델입니다. 이 모델은 ml-intern이라는 시스템을 통해 개발되었으며, 실제 연구 및 공학적 문제를 자율적으로 해결하며 훈련되었습니다. 특히 1억만 파라미터 규모의 MoE 구조를 목표로 축소하고, `torch.compile` 등을 활용하여 성능과 효율성을 극대화했습니다.

핵심 포인트

  • 나노와일은 에이전트 기반으로 사전 학습된 초소형(1억만 파라미터) 딥시크 모델입니다.
  • 개발 과정에서 ml-intern 시스템을 활용하여 오버플로우 디버깅, 차원 축소 등 실제 공학적 문제를 자율적으로 해결했습니다.
  • MoE 구조를 유지하면서도 소규모 환경에 최적화되었으며, `torch.compile` 등을 통해 훈련 속도를 개선했습니다.

나노와일 (Nanowhale)
! 에이전트로 전적으로 사전 학습된 초소형 딥시크 (DeepSeek) 모델.

@karpathy 의 나노채트 (nanochat) 를 영감으로, ml-intern 에는 모든 딥시크 v4 의 구조적 진보들을 갖춘 초소형 MoE 를 훈련시키는 작업을 부여했습니다.

엔드 투 엔드 테스트를 위해 1 억만 파라미터의 MoE 를 훈련시켰습니다.
ml-intern 은 다음과 같은 실제 연구 및 공학적 문제를 자율적으로 처리했습니다:

소규모에서 Hyper-Connections 의 오버플로우 (overflow) 디버깅
약 1 억만 파라미터를 목표로 축소할 차원 선택
torch.compile 를 사용하여 훈련 속도를 높인 후 파라미터 이름 수정

코드와 모델을 여기에서 시도해 볼 수 있습니다:

@andrew_n_carr 의 이 멋진 도구에서 구조를 확인해 볼 수 있습니다:
https://hfviewer.com/HuggingFaceTB/ nanowhale-100m …

AI 자동 생성 콘텐츠

본 콘텐츠는 X @_lewtun (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0