AnyMo: 야생 환경에서의 기하학 인지형 설정 불가지론적 인간 동작 모델링

웨어러블 및 모바일 기기가 일상생활에 점점 더 깊숙이 자리 잡으면서, 이들은 야생(in the wild) 환경에서 인간의 동작을 지속적으로 감지할 수 있는 실용적인 방법을 제공합니다. 하지만 관성 신호는 신체 위치, 장착 위치, 센서 방향, 기기 하드웨어 및 샘플링 프로토콜을 포함한 감지 설정(sensing setup)에 매우 크게 의존합니다. 이러한 설정 의존성은 기기와 데이터셋을 가로질러 전이될 수 있는 동작 표현(motion representations)을 학습하는 것을 어렵게 만들며, 폐쇄형 집합 인식(closed-set recognition)을 넘어 웨어러블 IMU(Inertial Measurement Unit, 관성 측정 장치)의 광범위한 사용을 제한합니다. 우리는 설정 불가지론적(setup-agnostic) 인간 동작 모델링을 위한 기하학 인지형(geometry-aware) 프레임워크인 AnyMo를 소개합니다. AnyMo는 조밀한 신체 표면 배치에 대해 물리 기반(physics-grounded) IMU 시뮬레이션을 사용하여 다양하고 그럴듯한 합성 신호를 생성하고, 쌍을 이룬 합성 배치 뷰(paired synthetic placement views)와 마스크된 부분 관측값(masked partial observations)으로부터 그래프 인코더(graph encoder)를 사전 학습하며, 다중 위치 IMU를 전체 신체 동작 토큰(full-body motion tokens)으로 토큰화하고, 이러한 토큰을 동작-언어 이해를 위해 LLM(Large Language Model, 거대 언어 모델)과 정렬합니다. 우리는 세 가지 상호 보완적인 작업인 14개의 미학습 다운스트림 데이터셋에 대한 제로샷 활동 인식(zero-shot activity recognition), 교차 모달 검색(cross-modal retrieval), 그리고 웨어러블 IMU 동작 캡셔닝(wearable IMU motion captioning)에서 AnyMo를 평가합니다. 그 결과 HAR에서 평균 Accuracy/F1/R@2를 각각 11.7%/11.6%/22.6% 개선하였고, 제로샷 IMU-to-text 및 text-to-IMU 검색 MRR을 각각 15.9%와 28.6% 증가시켰으며, 제로샷 캡셔닝 BERT-F1을 18.8% 향상시켰습니다. 이러한 결과는 AnyMo가 야생 환경에서의 웨어러블 동작 이해를 위한 범용 모델(generalist model)임을 뒷받침합니다. 프로젝트 페이지: https://baiyuchen.com/project/AnyMo.

Insights

AnyMo: 야생 환경에서의 기하학 인지형 설정 불가지론적 인간 동작 모델링

요약

핵심 포인트

댓글

Franklin Resources의 다음 분기 실적 발표 전망

일주일 동안 AI에게 내 앱을 55번 테스트하게 했다. 무엇이 망가졌고, 내가 무엇을 망가뜨렸는가

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

Franklin Resources의 다음 분기 실적 발표 전망

일주일 동안 AI에게 내 앱을 55번 테스트하게 했다. 무엇이 망가졌고, 내가 무엇을 망가뜨렸는가

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기