본문으로 건너뛰기

© 2026 Molayo

X요약2026. 05. 31. 05:36

ThriftAttention: FP4 속도로 FP16에 근접한 품질 구현

요약

ThriftAttention은 쿼리-키 블록의 5%만 FP16으로 계산하는 선택적 혼합 정밀도 어텐션 기법입니다. FP4의 속도를 유지하면서도 FP16에 근접한 품질을 구현하며, 131k 이상의 긴 컨텍스트를 효율적으로 처리합니다.

핵심 포인트

  • FP4 속도로 FP16 수준의 품질 구현
  • 쿼리-키 블록의 5%만 FP16 사용
  • FP4-FP16 품질 격차의 90% 회복
  • 131k 이상의 컨텍스트 확장성 확보

ThriftAttention: FP4 속도로 FP16에 근접한 품질 구현

선택적 혼합 정밀도 어텐션 (Selective mixed-precision attention)
쿼리-키 (query-key) 블록의 단 5%만을 FP16으로 계산합니다.

이를 통해 FP4에서 FP16으로 전환할 때 발생하는 격차의 90%를 회복하며,
131k 이상의 컨텍스트 (contexts)까지 효율적으로 확장됩니다.

논문 (Paper):
https://huggingface.co/papers/2605.23081

GitHub + Transformers 통합:
https://github.com/joesharratt1229/ThriftAttention

ResearchMath-14K

멀티 에이전트 파이프라인 (multi-agent pipeline)을 통해 14,056개의 공개된 연구 수준 수학 문제들을 수집했습니다.

이는 최첨단 수학적 추론 (mathematical reasoning)을 위한 해당 분야 최대 규모의 데이터셋입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0