VisionAId: 개인화된 객체 검색 기능을 갖춘 시각 장애인을 위한 오프라인 우선 멀티모달 Android 어시스턴트

전 세계적으로 2억 8,500만 명 이상의 사람들이 시각 장애를 가지고 살아가고 있으며, 이들에게 장애물 피하기, 개인 소지품 찾기, 익숙한 얼굴 인식하기, 또는 현금 다루기와 같은 일상적인 과업은 개인의 자율성을 저해하는 지속적인 장애물로 남아 있습니다. 기존의 보조 애플리케이션들은 일반적으로 미리 정의된 카테고리를 인식하는 데 국한되거나, 클라우드 연결에 크게 의존하거나, 전용 하드웨어를 필요로 합니다. 우리는 일반 스마트폰을 실시간 시각 어시스턴트로 변환하는 Android 애플리케이션인 VisionAId를 선보입니다. 이 시스템은 ONNX Runtime을 통해 완전히 실행되는 6개의 온디바이스 (on-device) 딥러닝 모델(미터법 단안 깊이 추정 (metric monocular depth estimation), 인스턴스 분할 (instance segmentation), 시각 및 얼굴 임베딩 (visual and facial embeddings), 얼굴 탐지 (face detection), 그리고 커스텀 지폐 탐지기 (custom banknote detector))을 통합하며, 서사적인 장면 설명 및 자동 객체 레이블링을 위해서만 선택적으로 클라우드 대규모 언어 모델 (Google Gemini Flash)을 사용합니다. 차별화된 기여점은 개인 객체를 위한 퓨샷 (few-shot) 파이프라인입니다. 사용자가 여러 각도에서 객체를 촬영하면, 시스템은 나중에 환경 내에서 해당 특정 인스턴스를 찾아 증강 현실 (AR) 마커, 공간 오디오 (spatial audio), 그리고 거리에 비례하는 햅틱 (haptics) 피드백을 통해 사용자를 안내합니다. 모든 피드백은 멀티모달 (multimodal) 방식(루마니아어 음성 합성, 음성 명령, 진동)으로 제공됩니다. 참조 기기 (Samsung Galaxy S21 Ultra)에서 INT8 양자화 (quantization)를 통해 깊이 지연 시간 (depth latency)을 약 1200ms에서 약 491ms로 단축하였고, 커스텀 지폐 탐지기는 0.986의 mAP@50에 도달하였으며, 미터법 깊이 (metric depth)는 3m 이내에서 1cm 미만의 오차로 보정되었습니다.

Insights

VisionAId: 개인화된 객체 검색 기능을 갖춘 시각 장애인을 위한 오프라인 우선 멀티모달 Android 어시스턴트

요약

핵심 포인트

댓글

동일한 공포, 다른 결과: 금과 원유의 엇갈리는 폭락

UBS 분석가들, Advanced Micro Devices 주가가 670달러까지 상승할 수 있다고 전망

ByteDance, 폐쇄형 거대 모델에 필적하는 비디오 생성 모델 Seaweed-7B 오픈 소스 공개

6월 PMI가 50.5로 수정되면서 호주의 서비스 부문이 다시 확장세로 진입

UBS 분석가들, Advanced Micro Devices 주가가 670달러까지 상승할 수 있다고 전망

ByteDance, 폐쇄형 거대 모델에 필적하는 비디오 생성 모델 Seaweed-7B 오픈 소스 공개

6월 PMI가 50.5로 수정되면서 호주의 서비스 부문이 다시 확장세로 진입