본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 15. 13:13

nanowhale 소개

요약

nanowhale은 DeepSeek 모델을 기반으로 에이전트가 완전히 사전 학습시킨 매우 작은 MoE(Mixture-of-Experts) 모델입니다. 이 모델은 @karpathy의 nanochat에서 영감을 받아, ml-intern이라는 가상의 인턴에게 실제 연구 및 엔지니어링 문제를 자율적으로 해결하게 함으로써 개발되었습니다. 100M 파라미터 규모로 학습된 nanowhale은 소규모 환경에서의 디버깅, 차원 축소 결정, 그리고 torch.compile을 활용한 최적화 등 다양한 과정을 거쳤습니다.

핵심 포인트

  • nanowhale은 DeepSeek v4의 아키텍처 발전 사항을 적용한 100M 파라미터 규모의 MoE 모델입니다.
  • 이 프로젝트는 에이전트가 실제 연구-엔지니어링 문제를 자율적으로 해결하는 과정을 시뮬레이션하여 개발되었습니다.
  • 주요 학습 과정에는 소규모 환경에서의 오버플로 디버깅, 파라미터 크기 조절을 위한 차원 축소 결정 등이 포함됩니다.
  • 사용자들은 GitHub와 Hugging Face를 통해 nanowhale의 코드 및 모델(Base/Instruct)에 접근할 수 있습니다.

nanowhale을 소개합니다!
에이전트(agent)에 의해 완전히 사전 학습(pretrained)된 아주 작은 DeepSeek 모델입니다.

@karpathy의 nanochat에서 영감을 받아, 우리는 ml-intern에게 DeepSeek v4의 모든 아키텍처(architectural) 발전 사항을 적용한 아주 작은 MoE(Mixture-of-Experts)를 학습시키는 과제를 부여했습니다.

이를 엔드 투 엔드(end-to-end)로 테스트하기 위해, 100M-parameter 규모의 MoE를 학습시켰습니다.

ml-intern은 다음과 같은 여러 실제 연구-엔지니어링(research-engineering) 문제들을 자율적으로 처리했습니다:

소규모 환경에서 Hyper-Connections로 인한 오버플로(overflows) 디버깅
약 100M 파라미터(params)를 맞추기 위해 어떤 차원(dimensions)을 축소할지 결정
학습 속도를 높이기 위해 torch.compile을 사용한 후 파라미터 이름(parameter names) 수정

여기에서 코드와 모델을 시도해 볼 수 있습니다:

또한 @andrew_n_carr의 이 멋진 도구에서 아키텍처(architecture)를 확인할 수 있습니다:
https://hfviewer.com/HuggingFaceTB/nanowhale-100m

AI 자동 생성 콘텐츠

본 콘텐츠는 X @cmpatino_ (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0