독립적인 연구 프로젝트로서 2억 7천만 파라미터 규모의 언어 모델을 완전히 처음부터 개발했습니다
요약
2억 7천만 파라미터 규모의 언어 모델을 처음부터 직접 개발한 연구 프로젝트입니다. RoPE, RMSNorm, SwiGLU 등 최신 아키텍처를 적용하여 로컬 추론에 최적화된 커스텀 트랜스포머 모델을 구축했습니다.
핵심 포인트
- 270M 파라미터 규모의 언어 모델 자체 개발
- RoPE, RMSNorm, SwiGLU 등 최신 기술 적용
- Grouped Query Attention 및 자기회귀 디코더 구조 채택
- 로컬 추론 환경에 최적화된 효율적 아키텍처 설계
이 모델은 Rotary Positional Embeddings (회전 위치 임베딩), RMSNorm, SwiGLU 피드 포워드 레이어 (feed forward layers), Grouped Query Attention (그룹화된 쿼리 어텐션), 그리고 로컬 추론 (local inference)에 최적화된 효율적인 자기회귀 디코더 (autoregressive decoder)를 특징으로 하는 커스텀 Transformer (트랜스포머) 아키텍처를 기반으로 구축되었습니다.
submitted by /u/ConfectionAfter2366
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기