arXiv논문2026. 06. 29. 22:56

HARMES 데이터셋을 활용한 멀티모달 인간 활동 인식(Human Activity Recognition)을 위한 퓨전 기술 비교

요약

HARMES 데이터셋을 활용하여 멀티모달 인간 활동 인식(HAR)을 위한 7가지 센서 퓨전 기술을 체계적으로 비교 연구했습니다. 실험 결과, Gated Multi-modal Fusion 방식이 기존 베이스라인보다 높은 성능을 기록하며 최적의 퓨전 패러다임임을 입증했습니다.

핵심 포인트

HARMES 데이터셋 기반 7가지 최첨단 센서 퓨전 방법론 비교
Gated Multi-modal Fusion이 macro F1-score 0.82로 최고 성능 달성
기존 concatenation 기반 late fusion 대비 성능 6pp 향상
IMU, 오디오, 습도 데이터를 활용한 멀티모달 HAR 연구 공백 해소

웨어러블 센서를 이용한 인간 활동 인식 (Human Activity Recognition (HAR)) 분야의 최근 발전은 멀티모달 (multi-modal) 딥러닝 모델이 유니모달 (uni-modal) 모델보다 일관되게 뛰어난 성능을 보인다는 것을 입증했습니다. 모달리티 (Modalities)에는 IMU, RGB 카메라, 오디오 신호 등이 포함될 수 있습니다. 멀티모달 딥러닝의 중요한 측면 중 하나는 적용하는 센서 퓨전 (sensor fusion) 방식입니다. 최근 몇 년 동안 멀티모달 HAR을 위한 다양한 퓨전 패러다임이 제안되었습니다. 그러나 우리가 알고 있는 바로는, 공통된 멀티모달 HAR 벤치마크 데이터셋에서 이러한 패러다임들을 직접적으로 비교한 연구는 존재하지 않습니다. 이러한 연구 공백을 메우기 위해, 우리는 최근 공개된 HARMES 데이터셋에서 7가지 최첨단 센서 퓨전 방법을 체계적으로 비교합니다. 이 데이터셋은 완전히 라벨링된 61시간 분량의 IMU, 오디오 및 주변 습도 데이터로 구성되어 있습니다. 선택된 데이터셋은 15가지의 가사 및 개인 위생 일상생활 활동 (Activities of Daily Living (ADLs))에 초점을 맞추고 있습니다. 7가지 서로 다른 퓨전 기술을 최첨단 멀티모달 모델 아키텍처에 적용함으로써, 우리는 Gated Multi-modal Fusion이 가장 높은 macro F1-score (0.82)를 달성함을 보여주었으며, 이는 leave-one-participant-out 평가 방식에서 concatenation 기반의 late fusion 방식인 HARMES 논문 베이스라인(0.76)보다 +6pp 더 높은 수치입니다. 우리 실험에 사용된 모든 코드는 GitHub에 공개되어 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

HARMES 데이터셋을 활용한 멀티모달 인간 활동 인식(Human Activity Recognition)을 위한 퓨전 기술 비교

요약

핵심 포인트

댓글