본문으로 건너뛰기

© 2026 Molayo

HN속보요약2026. 04. 24. 06:11

Apple Silicon 기반 온디바이스 AI 비서 RCLI 출시

요약

RCLI는 macOS 환경에서 구동되는 완전한 온디바이스(on-device) 음성 AI 시스템입니다. STT, LLM, TTS, VLM 파이프라인 전체가 클라우드 연결 없이 Apple Silicon 칩셋에서 네이티브로 작동합니다. MetalRT라는 자체 GPU 추론 엔진을 활용하여 M3 이상의 기기에서 최대 550 tok/s의 높은 처리량과 200ms 미만의 낮은 음성 지연 시간을 달성했습니다. 사용자는 음성 또는 텍스트 명령으로 Mac의 기능(앱 실행, 음악 재생 등)을 제어하고, 로컬 문서 검색(RAG), 실시간 카메라 및 화면

핵심 포인트

  • MetalRT 기반 RCLI는 Apple Silicon에서 STT+LLM+TTS+VLM 파이프라인 전체를 클라우드 없이 구동하며, M3 이상 기기에서 최대 550 tok/s의 LLM 처리량을 보여줍니다.
  • 음성 명령을 통해 Mac의 40가지 이상의 기능(앱 실행, 메시지 전송 등)을 제어할 수 있으며, 로컬 RAG를 통해 PDF, DOCX 등의 문서를 요약하고 질의응답 할 수 있습니다.
  • VLM(Vision-Language Model) 기능을 활용하여 실시간 카메라 스트림이나 화면 캡처 영역을 분석하며, 이는 llama.cpp 엔진을 통해 Metal GPU에서 구동됩니다.
  • M1/M2 Mac 사용자는 RCLI가 자동으로 오픈소스 llama.cpp 엔진으로 폴백(fallback)되도록 설계되어 호환성을 확보했습니다.

RCLI는 macOS 환경에 최적화된 온디바이스 음성 AI 비서입니다. 이 시스템은 클라우드 연결이나 API 키 없이, 사용자의 Mac 기기 자체에서 모든 인공지능 처리 과정을 수행하는 것이 핵심 가치입니다.

🚀 기술적 하이라이트: MetalRT 기반의 고성능 추론

RCLI는 RunAnywhere가 개발한 독점 GPU 추론 엔진인 MetalRT를 통해 구동됩니다. MetalRT는 Apple Silicon 아키텍처에 특화되어 LLM, STT(Speech-to-Text), TTS(Text-to-Speech) 등 핵심 AI 모듈의 성능을 극대화합니다.

  • 성능 지표: M3 이상의 칩셋에서 최대 550 tok/s의 높은 LLM 처리량과 200ms 미만의 초저지연 음성 응답 속도를 달성했습니다. (STT는 실시간보다 714배 빠르다고 언급됨)
  • 파이프라인 구성: VAD(Voice Activity Detection) → STT(Zipformer streaming + Whisper/Parakeet offline) → LLM(Qwen3 / LFM2 등, Flash Attention 활용) → TTS의 전체 파이프라인이 Metal GPU를 통해 세 개의 동시 스레드로 구동됩니다.

🌐 온디바이스 기능 및 사용 사례

RCLI는 단순한 음성 비서를 넘어 Mac 운영체제 자체를 제어하는 강력한 인터페이스입니다.

  1. 시스템 제어 (Actions): 음성 또는 텍스트 명령을 통해 앱 실행, 알림 생성, 음악 재생(Spotify/Apple Music), 화면 잠금 등 40가지 이상의 macOS 기능을 로컬에서 직접 수행합니다.
  2. 로컬 문서 검색 (RAG): 사용자의 개인 문서를 인덱싱하고, 음성으로 질문하면 해당 문서 내의 정보를 요약하거나 질의응답 할 수 있습니다. PDF, DOCX 등 다양한 포맷을 지원하며, 약 4ms의 낮은 지연 시간으로 작동합니다.
  3. 비전 분석 (VLM): VLM(Vision-Language Model) 기능을 통해 실시간 카메라 스트림(rcli camera), 특정 화면 영역 캡처(rcli screen), 또는 정지 이미지 파일(rcli vlm photo.jpg)을 입력받아 내용을 분석합니다. 이 기능은 llama.cpp 엔진과 Metal GPU를 활용하여 클라우드 없이 작동합니다.

⚙️ 아키텍처 및 호환성

  • 모델 지원: LLM, STT, TTS, VLM 등 여러 분야에 걸쳐 20개 이상의 모델을 지원하며, 사용자는 rcli models 명령어를 통해 모델을 탐색하고 다운로드하거나 교체할 수 있습니다. (예: Qwen3 VL 2B, Liquid LFM2 VL 1.6B)
  • 호환성: M3 이상 Apple Silicon이 필수이며, M1/M2 Mac의 경우 RCLI가 자동으로 오픈소스 llama.cpp 엔진으로 폴백(fallback)하여 사용 가능합니다.
  • 사용 방법: 터미널에서 rcli를 실행하면 푸시-투-토크(push-to-talk) 인터페이스가 제공되며, 이를 통해 음성 명령을 내리거나 텍스트로 상호작용할 수 있습니다. 또한, 전용 대시보드에서는 모델 관리, 액션 활성화/비활성화 등의 기능을 제공합니다.

결론적으로 RCLI는 고성능 GPU 추론 엔진과 광범위한 온디바이스 기능 통합을 통해, 사용자의 Mac 경험을 근본적으로 변화시키는 차세대 AI 인터페이스를 제시하고 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 HN AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0