
ThriftAttention: FP4 속도로 FP16에 근접한 품질 구현
요약
ThriftAttention은 쿼리-키 블록의 5%만 FP16으로 계산하는 선택적 혼합 정밀도 어텐션 기법입니다. FP4의 속도를 유지하면서도 FP16에 근접한 품질을 구현하며, 131k 이상의 긴 컨텍스트를 효율적으로 처리합니다.
핵심 포인트
- FP4 속도로 FP16 수준의 품질 구현
- 쿼리-키 블록의 5%만 FP16 사용
- FP4-FP16 품질 격차의 90% 회복
- 131k 이상의 컨텍스트 확장성 확보
ThriftAttention: FP4 속도로 FP16에 근접한 품질 구현
선택적 혼합 정밀도 어텐션 (Selective mixed-precision attention)
쿼리-키 (query-key) 블록의 단 5%만을 FP16으로 계산합니다.
이를 통해 FP4에서 FP16으로 전환할 때 발생하는 격차의 90%를 회복하며,
131k 이상의 컨텍스트 (contexts)까지 효율적으로 확장됩니다.
논문 (Paper):
https://huggingface.co/papers/2605.23081
GitHub + Transformers 통합:
https://github.com/joesharratt1229/ThriftAttention
ResearchMath-14K
멀티 에이전트 파이프라인 (multi-agent pipeline)을 통해 14,056개의 공개된 연구 수준 수학 문제들을 수집했습니다.
이는 최첨단 수학적 추론 (mathematical reasoning)을 위한 해당 분야 최대 규모의 데이터셋입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기