HN속보요약2026. 04. 24. 06:11

Apple Silicon 기반 온디바이스 AI 비서 RCLI 출시

요약

RCLI는 macOS 환경에서 구동되는 완전한 온디바이스(on-device) 음성 AI 시스템입니다. STT, LLM, TTS, VLM 파이프라인 전체가 클라우드 연결 없이 Apple Silicon 칩셋에서 네이티브로 작동합니다. MetalRT라는 자체 GPU 추론 엔진을 활용하여 M3 이상의 기기에서 최대 550 tok/s의 높은 처리량과 200ms 미만의 낮은 음성 지연 시간을 달성했습니다. 사용자는 음성 또는 텍스트 명령으로 Mac의 기능(앱 실행, 음악 재생 등)을 제어하고, 로컬 문서 검색(RAG), 실시간 카메라 및 화면

핵심 포인트

MetalRT 기반 RCLI는 Apple Silicon에서 STT+LLM+TTS+VLM 파이프라인 전체를 클라우드 없이 구동하며, M3 이상 기기에서 최대 550 tok/s의 LLM 처리량을 보여줍니다.
음성 명령을 통해 Mac의 40가지 이상의 기능(앱 실행, 메시지 전송 등)을 제어할 수 있으며, 로컬 RAG를 통해 PDF, DOCX 등의 문서를 요약하고 질의응답 할 수 있습니다.
VLM(Vision-Language Model) 기능을 활용하여 실시간 카메라 스트림이나 화면 캡처 영역을 분석하며, 이는 llama.cpp 엔진을 통해 Metal GPU에서 구동됩니다.
M1/M2 Mac 사용자는 RCLI가 자동으로 오픈소스 llama.cpp 엔진으로 폴백(fallback)되도록 설계되어 호환성을 확보했습니다.

RCLI는 macOS 환경에 최적화된 온디바이스 음성 AI 비서입니다. 이 시스템은 클라우드 연결이나 API 키 없이, 사용자의 Mac 기기 자체에서 모든 인공지능 처리 과정을 수행하는 것이 핵심 가치입니다.

🚀 기술적 하이라이트: MetalRT 기반의 고성능 추론

RCLI는 RunAnywhere가 개발한 독점 GPU 추론 엔진인 MetalRT를 통해 구동됩니다. MetalRT는 Apple Silicon 아키텍처에 특화되어 LLM, STT(Speech-to-Text), TTS(Text-to-Speech) 등 핵심 AI 모듈의 성능을 극대화합니다.

성능 지표: M3 이상의 칩셋에서 최대 550 tok/s의 높은 LLM 처리량과 200ms 미만의 초저지연 음성 응답 속도를 달성했습니다. (STT는 실시간보다 714배 빠르다고 언급됨)
파이프라인 구성: VAD(Voice Activity Detection) → STT(Zipformer streaming + Whisper/Parakeet offline) → LLM(Qwen3 / LFM2 등, Flash Attention 활용) → TTS의 전체 파이프라인이 Metal GPU를 통해 세 개의 동시 스레드로 구동됩니다.

🌐 온디바이스 기능 및 사용 사례

RCLI는 단순한 음성 비서를 넘어 Mac 운영체제 자체를 제어하는 강력한 인터페이스입니다.

시스템 제어 (Actions): 음성 또는 텍스트 명령을 통해 앱 실행, 알림 생성, 음악 재생(Spotify/Apple Music), 화면 잠금 등 40가지 이상의 macOS 기능을 로컬에서 직접 수행합니다.
로컬 문서 검색 (RAG): 사용자의 개인 문서를 인덱싱하고, 음성으로 질문하면 해당 문서 내의 정보를 요약하거나 질의응답 할 수 있습니다. PDF, DOCX 등 다양한 포맷을 지원하며, 약 4ms의 낮은 지연 시간으로 작동합니다.
비전 분석 (VLM): VLM(Vision-Language Model) 기능을 통해 실시간 카메라 스트림(rcli camera), 특정 화면 영역 캡처(rcli screen), 또는 정지 이미지 파일(rcli vlm photo.jpg)을 입력받아 내용을 분석합니다. 이 기능은 llama.cpp 엔진과 Metal GPU를 활용하여 클라우드 없이 작동합니다.

⚙️ 아키텍처 및 호환성

모델 지원: LLM, STT, TTS, VLM 등 여러 분야에 걸쳐 20개 이상의 모델을 지원하며, 사용자는 rcli models 명령어를 통해 모델을 탐색하고 다운로드하거나 교체할 수 있습니다. (예: Qwen3 VL 2B, Liquid LFM2 VL 1.6B)
호환성: M3 이상 Apple Silicon이 필수이며, M1/M2 Mac의 경우 RCLI가 자동으로 오픈소스 llama.cpp 엔진으로 폴백(fallback)하여 사용 가능합니다.
사용 방법: 터미널에서 rcli를 실행하면 푸시-투-토크(push-to-talk) 인터페이스가 제공되며, 이를 통해 음성 명령을 내리거나 텍스트로 상호작용할 수 있습니다. 또한, 전용 대시보드에서는 모델 관리, 액션 활성화/비활성화 등의 기능을 제공합니다.

결론적으로 RCLI는 고성능 GPU 추론 엔진과 광범위한 온디바이스 기능 통합을 통해, 사용자의 Mac 경험을 근본적으로 변화시키는 차세대 AI 인터페이스를 제시하고 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Apple Silicon 기반 온디바이스 AI 비서 RCLI 출시

요약

핵심 포인트

🚀 기술적 하이라이트: MetalRT 기반의 고성능 추론

🌐 온디바이스 기능 및 사용 사례

⚙️ 아키텍처 및 호환성

댓글