H64LM: PyTorch로 밑바닥부터 구현한 249M 파라미터 Mixture-of-Experts Transformer

안녕하세요 여러분,

저는 PyTorch로 LLM(Large Language Model)을 밑바닥부터 직접 구현함으로써 현대적인 LLM을 더 잘 이해하기 위한 연구 프로젝트인 H64LM을 구축했습니다.

고수준(high-level) 학습 프레임워크에 의존하는 대신, 어텐션(attention), MoE 라우팅(routing), 정규화(normalization), 그리고 학습 루프(training loop)와 같은 핵심 구성 요소들을 직접 구현했습니다.

주요 특징:

249M 파라미터 Transformer
그룹화된 쿼리 어텐션 (Grouped Query Attention, GQA)
3개의 보조 라우팅 손실(auxiliary routing losses)을 포함한 희소 전문가 혼합 (Sparse Mixture-of-Experts, 8개 전문가, Top-2 라우팅)
SwiGLU, RoPE, RMSNorm
슬라이딩 윈도우 어텐션 (Sliding-window attention)
혼합 정밀도 학습 (Mixed-precision training), 그래디언트 누적 (gradient accumulation)
커스텀 학습 루프 (Trainer 추상화 미사용)
체크포인팅(Checkpointing) 및 재개(resume) 지원

포함된 체크포인트는 파이프라인을 엔드투엔드(end-to-end)로 검증하기 위해 WikiText-103의 하위 집합으로 학습되었으며, 강력한 모델을 목표로 한 것은 아닙니다. 10 에포크(epoch) 이후로는 눈에 띄게 과적합(overfit)되었습니다 (최고 val PPL ~40.5).

배치 크기 1에서만 가능한 생성(batch-size-1-only generation) 및 진정한 DDP(Distributed Data Parallel) 미지원(DataParallel로 대체됨)을 포함한 알려진 제한 사항들은 README에 문서화되어 있습니다.

GitHub: https://github.com/Haiderkhan64/H64LM

구현 방식이나 아키텍처에 대한 피드백은 언제나 환영합니다.

Insights

H64LM: PyTorch로 밑바닥부터 구현한 249M 파라미터 Mixture-of-Experts Transformer

요약

핵심 포인트

댓글

6월 가상자산 평균 수익률의 양수 전환은 상위 자산 82%의 하락을 가린 착시 현상

Cantor, Adam Back의 40억 달러 규모 비트코인 재무(Bitcoin Treasury) SPAC 합병 투표 재연기

토크나이저(Tokenizer) 변경이 AI 에이전트 예산 가설을 깨뜨릴 수 있는 이유

AI에게 장애 대응을 맡겨보았습니다. 발생하지도 않은 해킹을 지어내더니 통제 불능 상태에 빠졌습니다

Cantor, Adam Back의 40억 달러 규모 비트코인 재무(Bitcoin Treasury) SPAC 합병 투표 재연기

토크나이저(Tokenizer) 변경이 AI 에이전트 예산 가설을 깨뜨릴 수 있는 이유

AI에게 장애 대응을 맡겨보았습니다. 발생하지도 않은 해킹을 지어내더니 통제 불능 상태에 빠졌습니다