arXiv논문2026. 06. 10. 11:11

Zero-Shot HAR에서의 모달리티 격차 해소: IMU 데이터에 대한 대조 학습 및 분리 가능성이 최적화된 프로토타입

요약

IMU 기반 인간 활동 인식(HAR)의 제로샷 학습에서 발생하는 센서와 텍스트 간의 모달리티 격차를 해소하는 연구입니다. 대조 학습과 판별적 활동 설명을 결합하여 미학습 클래스에 대한 정확도를 73.2%까지 크게 향상시켰습니다.

핵심 포인트

모달리티 격차는 인코더 목적 함수에 의해 결정됨을 확인
대조 학습과 역 소프트맥스 보정 결합 시 성능 극대화
풍부한 텍스트 설명이 프로토타입 간 분리 가능성을 낮출 수 있음
ZSL-HAR 벤치마크 지표로 macro-averaged F1 사용 권장

관성 측정 장치 (IMU) 기반의 인간 활동 인식 (HAR)을 위한 제로샷 학습 (Zero-shot learning, ZSL)은 센서 임베딩 (sensor embeddings)과 의미론적 클래스 표현 (semantic class representations) 사이의 격차를 메워야 한다는 핵심적인 과제에 직면해 있습니다. 본 연구에서는 PAMAP2 데이터셋을 사용하여 3가지 추론 방법과 2가지 학습 파이프라인을 결합한 7가지 구성을 체계적으로 평가하였으며, 피험자 108과 109를 테스트용으로 제외한 상태에서 14개의 학습된 (seen) 클래스와 4개의 미학습 (unseen) 활동 클래스를 사용하였습니다. 연구 결과, 모달리티 격차 (modality gap)는 인코더 목적 함수 (encoder objective)에 의해 지배되는 학습 단계의 현상임을 발견했습니다. 레이블 이름 (label-name) 기반의 Sentence-BERT 프로토타입 (prototypes)에 대해 크로스 엔트로피 (cross-entropy)로 학습된 시간적 합성곱 신경망 (Temporal Convolutional Network, TCN)은 해당 텍스트 프로토타입과 평균 코사인 유사도 (cosine similarity) 0.30의 센서 임베딩을 생성하는 반면, 레이블 이름 프로토타입 타겟을 판별적인 활동 설명 (discriminative activity descriptions)으로 교체하면 이 수치가 0.69로 상승합니다. 이러한 정렬 (alignment) 개선은 세 가지 추론 방법 모두에서 일관되게 전이됩니다. 가장 강력한 결과는 대조 학습 (contrastive training)과 역 소프트맥스 보정 (inverted softmax correction)을 결합한 것으로, 레이블 이름 베이스라인의 정확도 58.3% 및 macro F1 0.34와 비교하여 미학습 클래스에서 73.2%의 정확도와 0.583의 macro F1을 달성했습니다. 부차적인 발견은 더 풍부한 텍스트 설명이 Sentence-BERT 공간 내에서 프로토타입 간의 분리 가능성 (inter-prototype separability)을 감소시킨다는 점인데, 이는 공유된 생체 역학적 어휘 (biomechanical vocabulary)가 언어 모델로 하여금 프로토타입 클라우드 (prototype cloud)를 압축하게 만들기 때문입니다. 이러한 효과는 프로토타입 설명이 충분한 판별적 어휘를 유지하는 한, 대조적 정렬 (contrastive alignment)이 제공하는 이점을 부정하지는 않습니다. 또한 우리는 테스트 세트의 클래스 분포가 불균형할 때 전체 정확도 (overall accuracy)가 오해를 불러일으킬 수 있는 주요 지표임을 입증하였으며, ZSL-HAR 벤치마크의 표준 보고 지표로 macro-averaged F1을 권장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Zero-Shot HAR에서의 모달리티 격차 해소: IMU 데이터에 대한 대조 학습 및 분리 가능성이 최적화된 프로토타입

요약

핵심 포인트

댓글