arXiv논문2026. 06. 16. 12:28

EPIC: Embodied AR 글래스의 효율적인 1인칭 시점 인지(Egocentric Perception)를 위한 시스템 프레임워크

요약

스마트 AR 글래스의 효율적인 1인칭 시점 인지를 위한 시스템 프레임워크 EPIC을 제안합니다. 시선, 포즈, 관성 신호를 활용해 정보량이 많은 데이터만 선별적으로 처리함으로써 메모리와 에너지 소비를 획기적으로 줄이는 알고리즘-하드웨어 공동 최적화 기술을 다룹니다.

핵심 포인트

EPIC 프레임워크는 시선 및 관성 신호를 활용해 사용자 의도를 추론함
고해상도 비디오 데이터 중 핵심 정보만 유지하여 인지 오버헤드 감소
기존 방식 대비 메모리 사용량 평균 27.5배 절감
에너지 소비를 24.3배 절감하여 AR 글래스의 효율성 극대화

현대의 스마트 AR 글래스는 사용자와 주변 환경에 대한 지속적인 인지(Perception)를 통해 파운데이션 모델(Foundation Model) 기반의 보조 기능을 지원하는 지능형 시스템으로 진화하고 있습니다. 그러나 이러한 인지 우선(Perception-first) 설계는 주요한 병목 현상을 야기합니다. 풍부한 인지 스트림, 특히 고해상도 1인칭 시점(Egocentric) 비디오를 지속적으로 캡처, 처리 및 저장하는 것은 상당한 전력 및 메모리 오버헤드를 발생시키며, 이는 자원이 제한된 AR 글래스에서 유지하기 어렵습니다. 본 연구에서는 스마트 AR 글래스의 Embodied Intelligence(체화된 지능)를 위한 효율적인 1인칭 시점 인지 시스템인 EPIC을 제안합니다. EPIC은 시선(Gaze), 포즈(Pose), 관성 신호(Inertial signals)를 활용하여 사용자의 의도를 추론하고, 고해상도 인지 입력 중 가장 정보량이 많은 부분만을 유지함으로써 인지 오버헤드를 크게 줄이는 알고리즘-하드웨어 공동 최적화(Algorithm-hardware co-optimization) 프레임워크입니다. 실험 결과, EPIC은 전체 비디오 베이스라인(Full video baseline) 솔루션과 비교했을 때, 스마트 글래스의 Embodied Intelligence 핵심 애플리케이션 시나리오인 1인칭 시점 비디오 이해 태스크에서의 지능형 보조 정확도를 유지하면서도 메모리 사용량(Memory footprint)을 평균 $27.5 imes$ 줄이고 에너지 소비를 $24.3 imes$ 절감함을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

EPIC: Embodied AR 글래스의 효율적인 1인칭 시점 인지(Egocentric Perception)를 위한 시스템 프레임워크

요약

핵심 포인트

댓글