TimeLens: 대형 이집트 박물관을 위한 검색 증강 질문 응답 기반 온디바이스 유물 인식
요약
TimeLens는 대형 박물관을 위한 온디바이스 AI 기반 모바일 가이드입니다. 이 시스템은 유물을 실시간으로 인식하고, 사용자가 후속 질문을 할 수 있도록 검색 증강 생성(RAG) 기능을 결합했습니다. 연구진은 데이터 품질 주도 반복 과정을 거쳐 고성능의 경량화된 유물 감지기(YOLOv8n)를 개발했으며, 지연 시간을 획기적으로 줄인 RAG 시스템을 구축하여 현장 적용 가능성을 높였습니다.
핵심 포인트
- 온디바이스 유물 감지기를 개발하여 실시간 인식 성능 확보
- 데이터 품질 주도 반복 연구로 고성능 경량 모델(YOLOv8n) 구현
- ChromaDB 기반 RAG 시스템을 구축하고 Gemma 4 E2B를 활용해 지연 시간 단축
TimeLens는 대형 이집트 박물관(GEM)용 AI 기반 양방향 모바일 가이드입니다. 방문객이 휴대폰을 전시품에 비추면, 실시간으로 유물이 인식되며 영어 또는 아랍어로 후속 질문을 할 수 있습니다. 본 연구는 갤러리 내 배포에 특화된 세 가지 문제를 다룹니다: 51개의 목록화된 유물들(많은 것이 거의 동일한 라메세스 왕조 조각상) 간의 미세한 시각적 유사성, 선별된 학습 데이터와 휴대용 카메라 환경 사이의 격차, 그리고 AI 가이드가 지원되지 않는 역사적 사실을 진술할 위험입니다. 두 가지 공학적 기여가 보고됩니다. 첫째, 데이터 품질 주도 반복 연구를 통해 온디바이스 유물 감지기가 개발되었습니다. 이 과정은 파운데이션 모델 자동 어노테이션(YOLO-World)부터 공간 레이블 정리 규칙을 거쳐 완전히 수동으로 어노테이션된 데이터셋에 이르렀으며, 여기서 레이블 품질이 결정적인 요소임이 밝혀졌습니다. 최종 YOLOv8n 모델은 이전에 실패했던 모든 클래스를 해결하면서도 중급 휴대폰에서 실시간으로 실행되는 5.97 MB의 TensorFlow Lite 에셋을 유지합니다(mAP@0.5 = 0.995, mAP@0.5:0.95 = 0.924). 둘째, 108개 기록의 ChromaDB 지식 기반에 근거한 양방향 검색 증강 생성(RAG) 가이드가 평가되었으며, 일곱 개의 후보 언어 모델을 대상으로 벤치마킹을 거쳐 Gemma 4 E2B (Q4 K M)이 선택되었습니다. 열 가지 목표 최적화를 통해 종단 간 지연 시간은 30초 이상에서 약 10초로 단축되었습니다. 두 하위 시스템 모두 양방향 인터페이스, 박물관 위치 게이팅, 그리고 텍스트-음성 변환(text-to-speech) 지원 기능을 갖춘 프로덕션 Flutter 애플리케이션에 통합되어 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기