arXiv논문2026. 06. 29. 22:46

전통 중의학 재활 훈련을 위한 교차 뷰 멀티모달 비전 기반 평가 프레임워크

요약

전통 중의학(TCM) 재활 훈련의 동작 품질 평가를 위해 1인칭 및 3인칭 비디오를 활용하는 교차 뷰 멀티모달 프레임워크 CME-AQA를 제안합니다. 시각적 포즈 융합을 통해 기존 단일 시점 방식의 한계를 극복하고 침술 및 추나 동작의 정확도를 높였습니다.

핵심 포인트

1인칭 및 3인칭 비디오를 결합한 교차 뷰 멀티모달 접근 방식 제안
시각적 포즈 융합을 통해 손의 자기 폐쇄 및 복잡한 상호작용 문제 해결
침술 및 추나 동작 평가에서 기존 베이스라인 대비 우수한 성능 달성
침 깊이 및 자침 속도 등 주요 지표에서 가중 F1 점수 10% 이상 향상

비전 기반 평가(Vision-based assessment)는 전통 중의학 (TCM) 재활 훈련에서 편리하고 비용 효율적인 평가를 제공할 수 있으며, 컴퓨터 비전(Computer vision)을 통한 동작 품질 평가 (AQA)는 유망한 해결책을 제시합니다. 물리 치료를 위한 기존의 자동 AQA 프레임워크는 일반적으로 단일 시점에서 캡처된 골격 데이터 (Skeletal data)에 의존하는데, 이는 손의 밀집된 자기 폐쇄 (Self-occlusion)와 복잡한 손-물체 상호작용 (Hand-object interactions)을 포함하는 침술 (Acupuncture) 또는 추나 (Tuina)와 같은 TCM 기술에는 비효율적입니다. 이러한 과제를 해결하기 위해, 우리는 환경적 맥락에 대한 이해를 높이기 위해 시각적 포즈 융합 (Visual-pose fusion)을 통합하고, 추론 강건성 (Inference robustness)을 향상시키기 위해 훈련 과정에서 1인칭 및 3인칭 비디오를 모두 활용하는 교차 뷰 멀티모달 비전 기반 평가 프레임워크인 CME-AQA를 제안합니다. 우리는 전문가 주석 (Expert annotations)이 포함된 61명의 피험자에 대한 동기화된 1인칭 및 3인칭 녹화 영상을 각각 포함하는 두 개의 이중 뷰 데이터셋인 TCM-AQA61-A (Acupuncture)와 TCM-AQA61-T (Tuina)를 수집했습니다. 실험 결과, 우리의 접근 방식은 경쟁력 있는 베이스라인 (Baselines) 모델들에 대해 우수하거나 대등한 평균 성능을 달성하였으며, 침 깊이 (Needle Depth) 및 빠른 자침 (Quick Needle Insertion)과 같은 주요 평가 작업에서 가장 우수한 경쟁 방법 대비 가중 F1 (Weighted F1) 점수에서 10% 이상의 상대적 향상을 달성했습니다. 동시에 삽입 시간 (Insertion time) 및 조작 빈도 (Manipulation frequency)와 같은 정량적 측정치에서의 평균 절대 오차 (Mean absolute error)를 줄였습니다. CPR 데이터셋에 대한 테스트는 여러 자세 기반 기준에서 대등한 성능을 추가로 입증하며, 이는 참가자의 움직임이 평가의 중심이 되는 관련 구조화된 시뮬레이션 임상 기술 평가에 대한 적용 가능성을 시사합니다. 종합적으로, CME-AQA는 구조화된 TCM 재활 훈련에 대한 평가 정확도를 높이고, 더욱 편리하고 효과적인 훈련 중심의 기술 평가를 용이하게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

전통 중의학 재활 훈련을 위한 교차 뷰 멀티모달 비전 기반 평가 프레임워크

요약

핵심 포인트

댓글