X요약2026. 05. 15. 13:13

nanowhale 소개

요약

nanowhale은 DeepSeek 모델을 기반으로 에이전트가 완전히 사전 학습시킨 매우 작은 MoE(Mixture-of-Experts) 모델입니다. 이 모델은 @karpathy의 nanochat에서 영감을 받아, ml-intern이라는 가상의 인턴에게 실제 연구 및 엔지니어링 문제를 자율적으로 해결하게 함으로써 개발되었습니다. 100M 파라미터 규모로 학습된 nanowhale은 소규모 환경에서의 디버깅, 차원 축소 결정, 그리고 torch.compile을 활용한 최적화 등 다양한 과정을 거쳤습니다.

핵심 포인트

nanowhale은 DeepSeek v4의 아키텍처 발전 사항을 적용한 100M 파라미터 규모의 MoE 모델입니다.
이 프로젝트는 에이전트가 실제 연구-엔지니어링 문제를 자율적으로 해결하는 과정을 시뮬레이션하여 개발되었습니다.
주요 학습 과정에는 소규모 환경에서의 오버플로 디버깅, 파라미터 크기 조절을 위한 차원 축소 결정 등이 포함됩니다.
사용자들은 GitHub와 Hugging Face를 통해 nanowhale의 코드 및 모델(Base/Instruct)에 접근할 수 있습니다.

nanowhale을 소개합니다!
에이전트(agent)에 의해 완전히 사전 학습(pretrained)된 아주 작은 DeepSeek 모델입니다.

@karpathy의 nanochat에서 영감을 받아, 우리는 ml-intern에게 DeepSeek v4의 모든 아키텍처(architectural) 발전 사항을 적용한 아주 작은 MoE(Mixture-of-Experts)를 학습시키는 과제를 부여했습니다.

이를 엔드 투 엔드(end-to-end)로 테스트하기 위해, 100M-parameter 규모의 MoE를 학습시켰습니다.

ml-intern은 다음과 같은 여러 실제 연구-엔지니어링(research-engineering) 문제들을 자율적으로 처리했습니다:

소규모 환경에서 Hyper-Connections로 인한 오버플로(overflows) 디버깅
약 100M 파라미터(params)를 맞추기 위해 어떤 차원(dimensions)을 축소할지 결정
학습 속도를 높이기 위해 torch.compile을 사용한 후 파라미터 이름(parameter names) 수정

여기에서 코드와 모델을 시도해 볼 수 있습니다:

코드:
https://github.com/huggingface/nanowhale
베이스 모델(Base model):
https://huggingface.co/cmpatino/nanowhale-100m-base
인스트럭트 모델(Instruct Model):
https://huggingface.co/cmpatino/nanowhale-100m

또한 @andrew_n_carr의 이 멋진 도구에서 아키텍처(architecture)를 확인할 수 있습니다:
https://hfviewer.com/HuggingFaceTB/nanowhale-100m

AI 자동 생성 콘텐츠

원문 바로가기

nanowhale 소개

요약

핵심 포인트

댓글