Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
GitHub ML Hardware 70건필터 해제
가산 양자화(Additive Quantization)를 통한 대규모 언어 모델(LLM)의 극한 압축을 위한 공식 PyTorch 구현체
가산 양자화(AQLM)를 통해 LLM을 극한으로 압축하는 공식 PyTorch 구현체와 PV-tuning 알고리즘을 소개합니다. 1비트 수준의 초저비트 양자화에서도 높은 정확도를 유지하며, Llama 및 Mistral 모델군에 적용 가능합니다.
Lyrcaxis/KokoroSharp
KokoroSharp은 ONNX Runtime을 기반으로 구축된 C#용 Kokoro TTS 추론 엔진입니다. NuGet 패키지를 통해 간편하게 통합할 수 있으며, 다양한 언어와 화자를 지원하는 고성능 텍스트 음성 변환 기능을 제공합니다.

PacifAIst/Quansloth
Quansloth는 Google의 TurboQuant 기술을 활용하여 로컬 LLM 추론 시 VRAM 사용량을 최대 75%까지 절감하는 오픈소스 프로젝트입니다. 저사양 GPU에서도 대규모 컨텍스트를 안정적으로 처리할 수 있도록 KV 캐시 압축 기술과 최적화된 CUDA 백엔드를 제공합니다.
NSTiwari/YOLOv10-LiteRT-Android
YOLOv10 모델을 Google AI Edge의 LiteRT(.tflite)로 변환하여 Android 기기에서 실시간 온디바이스 객체 탐지를 구현하는 방법을 설명합니다. PyTorch에서 ONNX를 거쳐 TFLite로 변환하는 전체 파이프라인과 Android 앱에서의 추론 및 시각화 과정을 다룹니다.
RAG를 넘어서: 문서 전체를 당신의 노트북에서 로드하세요
KV 압축 기술을 통해 소비자용 하드웨어에서도 대규모 컨텍스트를 처리할 수 있게 하는 quantcpp 라이브러리를 소개합니다. 6.4배의 KV 압축을 통해 메모리 사용량을 획기적으로 줄이면서도 FP32 수준의 품질을 유지합니다.
pmetal: Rust로 작성된 Apple Silicon용 ML SDK, 프레임워크 및 애플리케이션 제품군
pmetal은 Rust로 작성된 Apple Silicon 전용 머신러닝 플랫폼으로, Metal GPU와 Apple Neural Engine(ANE)을 활용합니다. GUI와 TUI를 모두 지원하며 모델 학습, 추론, 양자화, 지식 증류 등 통합적인 ML 워크플로우를 제공합니다.
timtoole02/Camelid
Camelid는 Rust로 구현된 네이티브 로컬 LLM 추론 엔진으로, GGUF 모델을 직접 로드하여 OpenAI 스타일의 API를 제공합니다. Python 의존성 없이 단일 정적 바이너리로 동작하며, Metal GPU 가속과 엄격한 토큰 단위 일치성 검증을 특징으로 합니다.
UNITES-Lab/MoE-Quantization
MoE 모델의 효율적인 확장을 방해하는 메모리 오버헤드를 해결하기 위해 구조 인식 양자화(Structure-aware quantization)를 연구합니다. MoE의 고유한 희소성을 고려하여 블록, 전문가, 선형 레이어별로 최적의 비트 할당 방식을 제안합니다.
NVIDIA Model-Optimizer
NVIDIA Model Optimizer(ModelOpt)는 양자화, 가지치기, 증류 등 최첨단 기술을 통해 AI 모델을 가속화하는 라이브러리입니다. Hugging Face, PyTorch와 호환되며 TensorRT-LLM, vLLM 등 추론 프레임워크로의 원활한 배포를 지원합니다.
intel/neural-speed
Intel의 Neural Speed는 Intel 플랫폼에서 LLM의 효율적인 추론을 지원하기 위해 설계된 저비트 양자화 라이브러리입니다. llama.cpp에서 영감을 받아 Intel CPU의 ISA(AMX, AVX512 등)에 최적화되었으며, 특정 모델에서 최대 40배의 성능 향상을 제공합니다.
andrewboutros/rad-flow
RAD-Flow는 FPGA를 넘어선 재구성 가능한 가속 장치를 위한 아키텍처 및 애플리케이션 공동 설계 도구입니다. RAD-Sim 시뮬레이터를 기반으로 하며, Intel과 VMWare 등의 지원을 받는 연구 프로젝트입니다.
adilsondias-engineer/fpga-trading-systems
저지연 고빈도 매매(HFT)를 위한 프로덕션급 FPGA 트레이딩 시스템 오픈소스 프로젝트입니다. VHDL 기반의 10G PHY와 NASDAQ ITCH 5.0 오더북 구현, C++ DPDK/XDP 커널 바이패스 기술을 포함합니다.
aerlabsAI/ai-inference-resources
LLM 추론 시스템 최적화를 위한 핵심 리소스를 큐레이션한 자료입니다. 서빙 엔진 비교, GPU 커널, 양자화, MoE 모델 분석 및 비용 절감 전략 등 엔지니어링 관점의 심도 있는 주제들을 다룹니다.
molyswu/hand_detection
Tensorflow의 Object Detection API와 SSD 신경망을 사용하여 1인칭 시점(egocentric view)의 손을 탐지하는 기술 가이드입니다. Egohands 데이터셋을 활용하여 실시간 웹캠 및 유튜브 영상에서 손을 추적하는 방법과 코드를 제공합니다.
matthiasn/lotti
Lotti는 로컬 에이전틱 레이어를 갖춘 오픈 소스 개인 로그북입니다. 지속적으로 실행되는 AI 에이전트가 사용자의 기록을 분석하여 다음 할 일을 제안하며, 개인정보 보호를 위해 로컬 실행 및 종단간 암호화를 지원합니다.
AI-Hypercomputer/JetStream
JetStream은 대규모 언어 모델(LLM)의 추론 과정에 특화된 고성능 최적화 엔진입니다. 이 엔진은 XLA 디바이스, 특히 TPU 환경에서 LLM을 구동할 때 처리량과 메모리 사용량을 극대화하도록 설계되었습니다. 향후 GPU 지원도 계획되어 있어 다양한 하드웨어 환경에서의 효율적인 모델 서빙이 가능합니다.
psmarter/CUDA-Practice
이 프로젝트는 CUDA를 활용하여 고성능 컴퓨팅(HPC)에 필요한 다양한 핵심 알고리즘과 기술들을 연습하고 구현하는 것을 목표로 합니다. GEMM, FlashAttention, Tensor Cores와 같은 주요 연산부터 양자화 및 KV 캐시 관리까지 포함하며, CUTLASS 라이브러리와 NCCL을 사용하여 최적의 성능을 달성할 수 있는 손실 없는 CUDA 커널과 성능 최적화 기법들을 다룹니다.
jkanalakis/deep-recall
deep-recall은 LLM(대규모 언어 모델)을 위한 엔터프라이즈급 메모리 프레임워크입니다. 이 프레임워크는 GPU 최적화 추론, 벡터 저장소, 자동 확장을 특징으로 하며, 효율적인 컨텍스트 검색 기능을 제공합니다. 이를 통해 사용자 개개인에게 초개인화된 고품질의 응답을 생성할 수 있도록 돕습니다.
bytedance/ByteTransformer
ByteDance에서 개발한 ByteTransformer는 BERT 트랜스포머 모델의 추론(inference) 속도를 최적화하는 라이브러리입니다. 이 도구는 NVIDIA GPU 환경에 특화되어 있어, 대규모 언어 모델을 실제 서비스 환경에서 효율적으로 구동할 수 있도록 설계되었습니다. 관련 연구 논문(arXiv:2210.03052)의 내용을 기반으로 성능 향상을 목표로 합니다.
hpcaitech/FastFold
FastFold는 GPU 클러스터 환경에서 AlphaFold의 학습 및 추론 과정을 최적화하는 프로젝트입니다. 이 도구는 특히 CUDA와 같은 병렬 컴퓨팅 기술을 활용하여 대규모 단백질 구조 예측 모델인 AlphaFold의 성능을 극대화합니다. 이를 통해 연구자들이 효율적으로 단백질 접힘 문제를 해결하고 관련 생명과학 연구를 진행할 수 있도록 지원합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.