X요약2026. 06. 24. 07:11

Grouped Query Experts

요약

GQA(Grouped Query Attention) 구조 상단에 MoE(Mixture-of-Experts) 레이어를 적용한 Grouped Query Experts 기술을 소개합니다. 활성 Query heads를 절반으로 줄이면서도 정확도를 유지하며, 긴 컨텍스트 처리 시 연산량을 효과적으로 절감합니다.

핵심 포인트

GQA 상단에 MoE 레이어를 결합한 새로운 구조 제안
활성 Query heads를 50% 감소시켜 연산 효율성 증대
전체 GQA의 정확도를 유지하며 긴 컨텍스트 처리 최적화

KV heads (Key-Value heads)는 밀집(dense) 상태로 유지하면서, 토큰당 query heads (query heads)를 라우팅하는 GQA (Grouped Query Attention) 상단의 mixture-of-experts (MoE) 레이어입니다.

활성 query heads를 절반으로 줄이면서도 전체 GQA의 정확도와 일치하며, 긴 컨텍스트 (long contexts)에 대한 연산량을 절감합니다. https://t.co/ipD3cQFNrD

AI 자동 생성 콘텐츠

원문 바로가기

Grouped Query Experts

요약

핵심 포인트

댓글