Apple Silicon 기반 온디바이스 AI 비서 RCLI 출시
요약
RCLI는 macOS 환경에서 구동되는 완전한 온디바이스(on-device) 음성 AI 시스템입니다. STT, LLM, TTS, VLM 파이프라인 전체가 클라우드 연결 없이 Apple Silicon 칩셋에서 네이티브로 작동합니다. MetalRT라는 자체 GPU 추론 엔진을 활용하여 M3 이상의 기기에서 최대 550 tok/s의 높은 처리량과 200ms 미만의 낮은 음성 지연 시간을 달성했습니다. 사용자는 음성 또는 텍스트 명령으로 Mac의 기능(앱 실행, 음악 재생 등)을 제어하고, 로컬 문서 검색(RAG), 실시간 카메라 및 화면
핵심 포인트
- MetalRT 기반 RCLI는 Apple Silicon에서 STT+LLM+TTS+VLM 파이프라인 전체를 클라우드 없이 구동하며, M3 이상 기기에서 최대 550 tok/s의 LLM 처리량을 보여줍니다.
- 음성 명령을 통해 Mac의 40가지 이상의 기능(앱 실행, 메시지 전송 등)을 제어할 수 있으며, 로컬 RAG를 통해 PDF, DOCX 등의 문서를 요약하고 질의응답 할 수 있습니다.
- VLM(Vision-Language Model) 기능을 활용하여 실시간 카메라 스트림이나 화면 캡처 영역을 분석하며, 이는 llama.cpp 엔진을 통해 Metal GPU에서 구동됩니다.
- M1/M2 Mac 사용자는 RCLI가 자동으로 오픈소스 llama.cpp 엔진으로 폴백(fallback)되도록 설계되어 호환성을 확보했습니다.
RCLI는 macOS 환경에 최적화된 온디바이스 음성 AI 비서입니다. 이 시스템은 클라우드 연결이나 API 키 없이, 사용자의 Mac 기기 자체에서 모든 인공지능 처리 과정을 수행하는 것이 핵심 가치입니다.
🚀 기술적 하이라이트: MetalRT 기반의 고성능 추론
RCLI는 RunAnywhere가 개발한 독점 GPU 추론 엔진인 MetalRT를 통해 구동됩니다. MetalRT는 Apple Silicon 아키텍처에 특화되어 LLM, STT(Speech-to-Text), TTS(Text-to-Speech) 등 핵심 AI 모듈의 성능을 극대화합니다.
- 성능 지표: M3 이상의 칩셋에서 최대 550 tok/s의 높은 LLM 처리량과 200ms 미만의 초저지연 음성 응답 속도를 달성했습니다. (STT는 실시간보다 714배 빠르다고 언급됨)
- 파이프라인 구성: VAD(Voice Activity Detection) → STT(Zipformer streaming + Whisper/Parakeet offline) → LLM(Qwen3 / LFM2 등, Flash Attention 활용) → TTS의 전체 파이프라인이 Metal GPU를 통해 세 개의 동시 스레드로 구동됩니다.
🌐 온디바이스 기능 및 사용 사례
RCLI는 단순한 음성 비서를 넘어 Mac 운영체제 자체를 제어하는 강력한 인터페이스입니다.
- 시스템 제어 (Actions): 음성 또는 텍스트 명령을 통해 앱 실행, 알림 생성, 음악 재생(Spotify/Apple Music), 화면 잠금 등 40가지 이상의 macOS 기능을 로컬에서 직접 수행합니다.
- 로컬 문서 검색 (RAG): 사용자의 개인 문서를 인덱싱하고, 음성으로 질문하면 해당 문서 내의 정보를 요약하거나 질의응답 할 수 있습니다. PDF, DOCX 등 다양한 포맷을 지원하며, 약 4ms의 낮은 지연 시간으로 작동합니다.
- 비전 분석 (VLM): VLM(Vision-Language Model) 기능을 통해 실시간 카메라 스트림(
rcli camera), 특정 화면 영역 캡처(rcli screen), 또는 정지 이미지 파일(rcli vlm photo.jpg)을 입력받아 내용을 분석합니다. 이 기능은 llama.cpp 엔진과 Metal GPU를 활용하여 클라우드 없이 작동합니다.
⚙️ 아키텍처 및 호환성
- 모델 지원: LLM, STT, TTS, VLM 등 여러 분야에 걸쳐 20개 이상의 모델을 지원하며, 사용자는
rcli models명령어를 통해 모델을 탐색하고 다운로드하거나 교체할 수 있습니다. (예: Qwen3 VL 2B, Liquid LFM2 VL 1.6B) - 호환성: M3 이상 Apple Silicon이 필수이며, M1/M2 Mac의 경우 RCLI가 자동으로 오픈소스 llama.cpp 엔진으로 폴백(fallback)하여 사용 가능합니다.
- 사용 방법: 터미널에서
rcli를 실행하면 푸시-투-토크(push-to-talk) 인터페이스가 제공되며, 이를 통해 음성 명령을 내리거나 텍스트로 상호작용할 수 있습니다. 또한, 전용 대시보드에서는 모델 관리, 액션 활성화/비활성화 등의 기능을 제공합니다.
결론적으로 RCLI는 고성능 GPU 추론 엔진과 광범위한 온디바이스 기능 통합을 통해, 사용자의 Mac 경험을 근본적으로 변화시키는 차세대 AI 인터페이스를 제시하고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기