
nanowell/Differential-Transformer-PyTorch
요약
Differential-Transformer 아키텍처의 PyTorch 비공식 구현체입니다. LLM에 최적화된 디코더 전용 구조로, 새로운 차분 어텐션 메커니즘과 SwiGLU 등을 포함합니다.
핵심 포인트
- 차분 어텐션(Differential Attention) 메커니즘 도입
- LLM을 위한 디코더 전용(Decoder-only) 설계
- RMSNorm 및 SwiGLU 구조 적용
- PyTorch 기반의 오픈소스 구현체
시퀀스 모델링 (sequence modeling)을 위한 Differential-Transformer 아키텍처의 비공식 PyTorch 구현체로, 특히 대규모 언어 모델 (LLMs)과 유사한 디코더 전용 (decoder-only) 모델로 맞춤 설계되었습니다. 이 아키텍처는 새로운 차분 어텐션 (Differential Attention) 메커니즘, 멀티 헤드 (Multi-Head) 구조, RMSNorm, 그리고 SwiGLU를 포함합니다.

@misc{ye2024differentialtransformer,
title={Differential Transformer},
author={Tianzhu Ye and Li Dong and Yuqing Xia and Yutao Sun and Yi Zhu and Gao Huang and Furu Wei},
...
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub AI Research의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기