VisionAId: 개인화된 객체 검색 기능을 갖춘 시각 장애인을 위한 오프라인 우선 멀티모달 Android 어시스턴트
요약
시각 장애인을 위해 온디바이스 딥러닝 모델을 활용한 Android 기반 멀티모달 어시스턴트 VisionAId를 소개합니다. ONNX Runtime을 통해 클라우드 연결 없이도 객체 탐지, 깊이 추정, 얼굴 인식을 수행하며 개인화된 객체 검색 기능을 제공합니다.
핵심 포인트
- 6개의 온디바이스 모델을 통한 실시간 시각 보조 기능 제공
- 퓨샷 파이프라인을 활용한 개인 소지품의 정밀한 검색 및 안내
- AR 마커, 공간 오디오, 햅틱을 결합한 멀티모달 피드백 시스템
- INT8 양자화를 통해 모바일 환경에서의 지연 시간 대폭 단축
전 세계적으로 2억 8,500만 명 이상의 사람들이 시각 장애를 가지고 살아가고 있으며, 이들에게 장애물 피하기, 개인 소지품 찾기, 익숙한 얼굴 인식하기, 또는 현금 다루기와 같은 일상적인 과업은 개인의 자율성을 저해하는 지속적인 장애물로 남아 있습니다. 기존의 보조 애플리케이션들은 일반적으로 미리 정의된 카테고리를 인식하는 데 국한되거나, 클라우드 연결에 크게 의존하거나, 전용 하드웨어를 필요로 합니다. 우리는 일반 스마트폰을 실시간 시각 어시스턴트로 변환하는 Android 애플리케이션인 VisionAId를 선보입니다. 이 시스템은 ONNX Runtime을 통해 완전히 실행되는 6개의 온디바이스 (on-device) 딥러닝 모델(미터법 단안 깊이 추정 (metric monocular depth estimation), 인스턴스 분할 (instance segmentation), 시각 및 얼굴 임베딩 (visual and facial embeddings), 얼굴 탐지 (face detection), 그리고 커스텀 지폐 탐지기 (custom banknote detector))을 통합하며, 서사적인 장면 설명 및 자동 객체 레이블링을 위해서만 선택적으로 클라우드 대규모 언어 모델 (Google Gemini Flash)을 사용합니다. 차별화된 기여점은 개인 객체를 위한 퓨샷 (few-shot) 파이프라인입니다. 사용자가 여러 각도에서 객체를 촬영하면, 시스템은 나중에 환경 내에서 해당 특정 인스턴스를 찾아 증강 현실 (AR) 마커, 공간 오디오 (spatial audio), 그리고 거리에 비례하는 햅틱 (haptics) 피드백을 통해 사용자를 안내합니다. 모든 피드백은 멀티모달 (multimodal) 방식(루마니아어 음성 합성, 음성 명령, 진동)으로 제공됩니다. 참조 기기 (Samsung Galaxy S21 Ultra)에서 INT8 양자화 (quantization)를 통해 깊이 지연 시간 (depth latency)을 약 1200ms에서 약 491ms로 단축하였고, 커스텀 지폐 탐지기는 0.986의 mAP@50에 도달하였으며, 미터법 깊이 (metric depth)는 3m 이내에서 1cm 미만의 오차로 보정되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기