본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 14:05

AnyMo: 야생 환경에서의 기하학 인지형 설정 불가지론적 인간 동작 모델링

요약

AnyMo는 센서 위치나 하드웨어 설정에 구애받지 않는 기하학 인지형 인간 동작 모델링 프레임워크입니다. 물리 기반 시뮬레이션과 LLM 정렬 기술을 통해 제로샷 활동 인식 및 동작 캡셔닝에서 뛰어난 성능을 입증했습니다.

핵심 포인트

  • 설정 불가지론적(setup-agnostic) 동작 표현 학습
  • 물리 기반 IMU 시뮬레이션을 통한 합성 데이터 생성
  • LLM을 활용한 동작-언어 정렬 및 토큰화
  • 제로샷 활동 인식 및 동작 캡셔닝 성능 대폭 향상

웨어러블 및 모바일 기기가 일상생활에 점점 더 깊숙이 자리 잡으면서, 이들은 야생(in the wild) 환경에서 인간의 동작을 지속적으로 감지할 수 있는 실용적인 방법을 제공합니다. 하지만 관성 신호는 신체 위치, 장착 위치, 센서 방향, 기기 하드웨어 및 샘플링 프로토콜을 포함한 감지 설정(sensing setup)에 매우 크게 의존합니다. 이러한 설정 의존성은 기기와 데이터셋을 가로질러 전이될 수 있는 동작 표현(motion representations)을 학습하는 것을 어렵게 만들며, 폐쇄형 집합 인식(closed-set recognition)을 넘어 웨어러블 IMU(Inertial Measurement Unit, 관성 측정 장치)의 광범위한 사용을 제한합니다. 우리는 설정 불가지론적(setup-agnostic) 인간 동작 모델링을 위한 기하학 인지형(geometry-aware) 프레임워크인 AnyMo를 소개합니다. AnyMo는 조밀한 신체 표면 배치에 대해 물리 기반(physics-grounded) IMU 시뮬레이션을 사용하여 다양하고 그럴듯한 합성 신호를 생성하고, 쌍을 이룬 합성 배치 뷰(paired synthetic placement views)와 마스크된 부분 관측값(masked partial observations)으로부터 그래프 인코더(graph encoder)를 사전 학습하며, 다중 위치 IMU를 전체 신체 동작 토큰(full-body motion tokens)으로 토큰화하고, 이러한 토큰을 동작-언어 이해를 위해 LLM(Large Language Model, 거대 언어 모델)과 정렬합니다. 우리는 세 가지 상호 보완적인 작업인 14개의 미학습 다운스트림 데이터셋에 대한 제로샷 활동 인식(zero-shot activity recognition), 교차 모달 검색(cross-modal retrieval), 그리고 웨어러블 IMU 동작 캡셔닝(wearable IMU motion captioning)에서 AnyMo를 평가합니다. 그 결과 HAR에서 평균 Accuracy/F1/R@2를 각각 11.7%/11.6%/22.6% 개선하였고, 제로샷 IMU-to-text 및 text-to-IMU 검색 MRR을 각각 15.9%와 28.6% 증가시켰으며, 제로샷 캡셔닝 BERT-F1을 18.8% 향상시켰습니다. 이러한 결과는 AnyMo가 야생 환경에서의 웨어러블 동작 이해를 위한 범용 모델(generalist model)임을 뒷받침합니다. 프로젝트 페이지: https://baiyuchen.com/project/AnyMo.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0