Reddit요약2026. 06. 25. 02:22

EdgeRazor: 혼합 정밀도 양자화 인식 증류 (Mixed-Precision Quantization-Aware Distillation)를

요약

EdgeRazor는 에지 AI를 위해 설계된 경량 프레임워크로, 혼합 정밀도 양자화 인식 증류 기술을 통해 LLM을 효율적으로 압축합니다. 최소한의 코드 수정으로 기존 훈련 파이프라인에 통합되어 성능을 유지하면서도 저비용·고효율 계산을 지원합니다.

핵심 포인트

가중치, 활성화 값, KV 캐시를 지원하는 양자화 기술 제공
1.58-bit부터 4-bit까지 다양한 혼합 정밀도 지원
로짓, 특징, 어텐션 증류를 통한 유연한 모델 압축
에지 및 클라우드 환경을 위한 경량화 프레임워크

EdgeRazor는 모바일 및 에지 엔드포인트부터 지연 시간에 민감한 클라우드에 이르기까지 다양한 하드웨어에 걸쳐 더 작고, 더 빠르며, 배포 가능한 모델을 훈련하도록 설계된 에지 AI (edge AI)용 경량 프레임워크입니다. EdgeRazor 프레임워크는 최소한의 코드 수정만으로 기존의 전정밀도 (full-precision) 훈련 파이프라인에 모델 압축 기술을 원활하게 통합하여, 유망한 작업 성능을 유지하면서 저비용 및 고효율 계산을 가능하게 합니다.

EdgeRazor는 현재 구성 가능한 양자화 인식 증류 (quantization-aware distillation)를 통한 저비트 LLM 압축에 집중하고 있습니다. 양자화 측면에서 EdgeRazor는 가중치 (weights, 임베딩 및 lm_head 레이어 포함), 활성화 값 (activations), 그리고 KV 캐시 (KV cache)의 양자화를 지원합니다. 양자화 비트 너비에는 균일한 1.58-bit 및 4-bit뿐만 아니라, 2.79-bit (50% 4-bit + 50% 1.58-bit) 및 1.88-bit (12.5% 4-bit + 87.5% 1.58-bit)와 같은 행렬 단위 혼합 정밀도 (matrix-wise mixed-precision)가 포함됩니다. 증류 측면에서 EdgeRazor는 로짓 (logits), 특징 (features), 그리고 어텐션 증류 (attention distillation)를 제공하며, 이 모든 것은 통합된 구성 인터페이스 내에서 유연하게 결합될 수 있습니다.
소식

🔥 [2026-04]: 📄 논문-EdgeRazor를 arXiv:2605.04062 및 Hugging Face Paper에서 확인할 수 있습니다!
🔥 [2026-04]: 🚀 EdgeRazor Playground가 출시되어 오픈 소스로 공개되었습니다! CPU 친화적입니다! 한 번 시도해 보세요!
🔥 [2026-04]: 🏅 CACC 2025 결선 (China Algorithm Capability Competition)에서 AI 주제의 솔루션으로 EdgeRazor를 적용했습니다!
🔥 [2026-04]: 🏆 EdgeRazor를 통한 저비트 LLM이 출시되었습니다! 우리의 Hugging Face 컬렉션을 확인하세요: zhangsq-nju/edgerazor-nbit.
🔥 [2026-04]: 🛠️ 오픈 소스 EdgeRazor-V1이 출시되었습니다! 이제 원활한 통합 및 맞춤 설정을 위해 다양한 모델에서 구성이 가능합니다!

🔥 [2025-10]: 📄 논문-TernaryCLIP을 arXiv:2510.21879에서 확인할 수 있습니다!

arXiv : https://arxiv.org/abs/2605.04062

Full Paper : https://arxiv.org/pdf/2605.04062

GitHub : https://github.com/zhangsq-nju/EdgeRazor

HuggingFace : https://huggingface.co/collections/zhangsq-nju/edgerazor-nbit

우연히 발견했습니다.

제출자: /u/pmttyji | 커뮤니티: r/LocalLLaMA
[링크] [댓글]

AI 자동 생성 콘텐츠

원문 바로가기