본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 29. 11:08

STAG: 미세 표정 인식을 위한 행동 단위(Action Units)의 시공간 진화 구조적 표현

요약

미세 표정 인식을 위해 움직임 흐름과 적응형 얼굴 연결성을 공동 모델링하는 STAG 프레임워크를 제안합니다. 그래프 주의 네트워크와 트랜스포머를 결합하여 공간적·시간적 특징을 상호 정교화함으로써 일반화 성능과 해석 가능성을 높였습니다.

핵심 포인트

  • STAG: 동적 ROI-AU 결합 시공간 네트워크 제안
  • 그래프 주의 네트워크와 트랜스포머를 통한 이중 분기 구조
  • AU 가이드 동적 연결성으로 근육 활성화 패턴 적응
  • 다양한 데이터셋 실험을 통해 강건성 및 일반화 성능 입증

미세 표정 인식(Micro-expression recognition)은 미묘하고 짧게 지속되는 얼굴 근육의 움직임으로 인해 매우 어렵습니다. 기존 방법들은 정점(apex)과 시작(onset) 프레임에 크게 의존하며, 미세한 프레임 간 역학(inter-frame dynamics)을 간과하고 공간적 정보와 시간적 정보를 별도로 모델링하여 데이터셋 간의 일반화 성능을 제한합니다. 이러한 문제를 해결하기 위해, 우리는 움직임 흐름(motion flow)과 적응형 얼굴 연결성(adaptive facial connectivity)을 공동으로 모델링하는 동적 ROI-AU 결합 시공간 네트워크인 STAG를 제안합니다. 이 프레임워크는 크기 기반 선택(magnitude-based selection)과 시간적 주의 집중(temporal attention)을 사용하여 변별력 있는 프레임으로부터 광학 흐름(optical flow)을 추출합니다. 이중 분기 구조(dual-branch architecture)는 구조적 공간 추론을 위한 강화된 그래프 주의 네트워크(graph attention network)와 시간적 모델링을 위한 트랜스포머 인코더(transformer encoder)를 결합합니다. 양방향 교차 주의(bidirectional cross-attention) 모듈은 공간적 특징과 시간적 특징의 상호 정교화를 가능하게 하며, AU 가이드 동적 연결성(AU-guided dynamic connectivity)은 근육 활성화 패턴에 따라 얼굴 영역 간의 상호작용을 적응시킵니다. 트랜스포머는 정점 기반 접근 방식을 넘어 미묘한 시간적 역학을 포착하여, 설명 가능한 미세 표정 인식을 위한 의미론적 일관성과 해석 가능성을 향상시킵니다. 융합된 표현은 포컬 손실(focal loss)을 사용하여 최적화되며 CASME II, 4DME, DFME, NaME, SAMM, 그리고 SMIC-HS 데이터셋에서 평가되었습니다. 광범위한 실험을 통해 향상된 강건성(robustness), 일반화 성능, 해석 가능성 및 계산 효율성을 입증하였으며, 이는 정확한 교차 데이터셋 미세 표정 인식을 위한 적응형 관계 추론(adaptive relational reasoning), AU 가이드 동적 연결성, 그리고 심층 시공간 특징 융합의 효과를 확인시켜 줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0