
Grouped Query Experts
요약
GQA(Grouped Query Attention) 구조 상단에 MoE(Mixture-of-Experts) 레이어를 적용한 Grouped Query Experts 기술을 소개합니다. 활성 Query heads를 절반으로 줄이면서도 정확도를 유지하며, 긴 컨텍스트 처리 시 연산량을 효과적으로 절감합니다.
핵심 포인트
- GQA 상단에 MoE 레이어를 결합한 새로운 구조 제안
- 활성 Query heads를 50% 감소시켜 연산 효율성 증대
- 전체 GQA의 정확도를 유지하며 긴 컨텍스트 처리 최적화
Grouped Query Experts
KV heads (Key-Value heads)는 밀집(dense) 상태로 유지하면서, 토큰당 query heads (query heads)를 라우팅하는 GQA (Grouped Query Attention) 상단의 mixture-of-experts (MoE) 레이어입니다.
활성 query heads를 절반으로 줄이면서도 전체 GQA의 정확도와 일치하며, 긴 컨텍스트 (long contexts)에 대한 연산량을 절감합니다. https://t.co/ipD3cQFNrD
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기