ThriftAttention: FP4 속도로 FP16에 근접한 품질 구현

선택적 혼합 정밀도 어텐션 (Selective mixed-precision attention)
쿼리-키 (query-key) 블록의 단 5%만을 FP16으로 계산합니다.

이를 통해 FP4에서 FP16으로 전환할 때 발생하는 격차의 90%를 회복하며,
131k 이상의 컨텍스트 (contexts)까지 효율적으로 확장됩니다.