Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

GitHub AI Research 5건필터 해제

Apple Neural Engine 기반 로컬 LLM 런타임 'Orion' 소개

mechramc/Orion은 Apple Silicon(M 시리즈) 의 Apple Neural Engine(ANE) 을 직접 활용하여 작은 규모의 LLM 을 온디바이스에서 학습 및 추론할 수 있는 오픈소스 런타임입니다. CoreML 이나 Metal 과 같은 외부 프레임워크 없이 순수하게 ANE 하드웨어를 타겟팅한 프로젝트로, 오프라인 환경에서도 로컬 모델 개발이 가능합니다.

aiapple-siliconllm-on-devicemachine-learningobjective-c

4월 25일4

GitHub요약

psmarter/mini-infer:从零构建的 LLM 推理引擎

GitHub 레포지토리 psmarter/mini-infer 는 PyTorch 기반의 완전한 LLM 추론 엔진입니다. 페이지드 KV 캐시, 컨티뉴어스 배치, 스펙ulative decoding, CUDA graph 등 최신 최적화 기법들을 모두 구현하여 오픈소스 커뮤니티에서 주목받고 있습니다.

llminferencepytorch

4월 25일4

GitHub요약

알리바바 MNN: 엣지 AI 와 온디바이스 LLM 추론 엔진

TL;DR 알리바바에서 검증된 초고속 경량 추론 엔진 MNN 이 공개되었습니다. C++ 기반의 이 엔진은 ARM, Vulkan, Winograd 알고리즘 등을 지원하여 모바일 및 임베디드 기기에서 고성능 딥러닝 모델(특히 LLM) 을 실행할 수 있습니다. 기존 TensorFlow Lite 나 ONNX Runtime 과 대안으로 주목받고 있으며, 리소스 제약이 있는 환경에서도 효율적인 추론을 가능하게 합니다.

edge-aion-device-llminference-engine

4월 25일1

GitHub요약

대규모 LLM 추론 엔진 Aphrodite Engine 소개

Aphrodite Engine은 대규모 언어 모델(LLM) 추론을 위한 고성능 C++ 기반 오픈소스 엔진입니다. 이 프로젝트는 NVIDIA CUDA, AMD ROCm, Google TPU 등 다양한 하드웨어 가속기를 지원하며, Intel Inferentia와 같은 전용 칩셋도 포함합니다. LoRA(저랭크 어댑터) 및 추측적 디코딩(Speculative Decoding)과 같은 최신 최적화 기법을 내장하여 추론 속도를 극대화하고 있습니다.

llm-inferenceaphrodite-enginecuda

4월 25일2

GitHub요약

Rust 기반 데이터 연동형 AI 엔진 SpiceAI 소개

SpiceAI 는 데이터 기반 AI 애플리케이션과 에이전트를 위한 가용성 높은 SQL 쿼리, 검색 및 LLM 추론 엔진입니다. Rust 로 작성되어 성능과 효율성을 극대화하며, 외부 데이터 소스를 실시간으로 인메모리 캐싱하여 지연 시간을 획기적으로 줄입니다. 복잡한 데이터 연동 없이도 LLM 에 최신 정보를 제공하여 '데이터 그라운디드 AI' 구축을 가능하게 합니다.

spiceairustllm-inference

4월 25일3

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드