GitHub요약2026. 04. 27. 21:43

intel/auto-round

요약

이 기술 기사는 고정밀도 저비트 LLM 추론을 위한 최첨단(SOTA) 양자화 알고리즘에 관한 것입니다. 이 알고리즘은 CPU, XPU, CUDA 등 다양한 하드웨어 환경에서 원활하게 최적화될 수 있으며, 다중 데이터 타입을 지원합니다. 특히 vLLM, SGLang, Transformers와 같은 주요 LLM 추론 프레임워크와의 완벽한 호환성을 제공하여 효율적인 저비트 LLM 배포를 가능하게 합니다.

핵심 포인트

고정밀도 저비트 LLM 추론을 위한 최첨단(SOTA) 양자화 알고리즘을 제공합니다.
CPU, XPU, CUDA 등 다양한 하드웨어 아키텍처에 걸쳐 최적화되어 사용 가능합니다.
다중 데이터 타입 지원 및 int4, mxfp4, nvfp4 등의 포맷을 처리할 수 있습니다.
vLLM, SGLang, Transformers와 같은 주요 LLM 추론 라이브러리와 완벽하게 통합됩니다.

저장소: intel/auto-round
언어: Python
스타워스: 1039
포크: 114
주제: gguf, int4, llms, mxfp4, nvfp4, 양자화, 라운딩, sglang, transformers, vllm, vlms

설명:
고정밀도 저비트 LLM 추론을 위한 최첨단 (SOTA) 양자화 알고리즘으로, CPU/XPU/CUDA에 원활하게 최적화되며 다중 데이터 타입 지원과 vLLM, SGLang, Transformers 와의 완벽한 호환성을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

intel/auto-round

요약

핵심 포인트

댓글