본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 27. 20:23

글로스 프리 손어 번역을 위한 선택적 대조 학습

요약

본 논문은 글로스 프리(gloss-free) 환경에서의 손어 번역(SLT)의 어려움을 다루며, 기존 시스템들이 사용하는 무작위 인-배치 대조 학습 방식의 한계를 지적합니다. 연구진은 음성 영상과 텍스트 간의 유사도 역학 분석을 통해, 임의로 선택된 음성 샘플이 일관적인 정렬 정보를 제공하지 못한다는 것을 발견했습니다. 이에 따라, 참조 체크포인트 기반의 점수화와 커리큘럼 학습을 결합한 '선택적 대조 학습(SCL-SLT)' 및 '페어 선택(PS)' 전략을 제안하여, 노이즈를 줄이고 효과적인 대조적 지도 정보를 강화하는 방법을 제시합니다.

핵심 포인트

  • 글로스 프리 환경에서의 손어 번역은 시각/문자 모달리티 불일치 문제로 어려움이 크다.
  • 기존의 무작위 인-배치 대조 학습 방식은 노이즈가 많고 일관성이 부족한 정렬 정보를 제공할 수 있다.
  • 연구진은 유사도 역학 분석을 통해 효과적인 음성 샘플 선택의 중요성을 확인했다.
  • 제안된 '페어 선택(PS)' 전략은 참조 체크포인트 기반 점수화와 커리큘럼 학습을 활용하여 미니 배치 구성을 최적화한다.
  • SCL-SLT는 노이즈를 줄이고 의미적으로 유효한 대조적 지도 정보를 강화하는 새로운 접근 방식이다.

손어 번역 (SLT) 은 연속적인 손어 영상을 구어체 텍스트로 변환하지만, 시각적 손어와 문자 텍스트 사이의 고유한 모달리티 불일치로 인해 여전히 어려움이 있으며, 특히 글로스 프리(gloss-free) 환경에서는 이러한 문제가 더욱 두드러집니다. 최근 SLT 시스템들은 교차 모달리티 정렬을 위해 CLIP 와 유사한 비전-언어 사전 학습 (Vision-Language pretraining, VLP) 을 점차적으로 도입하고 있으나, 무작위 인-배치 대조 (random in-batch contrast) 는 배치에 의존적인 소수의 음성 샘플만 제공하며, 의미적으로 유사한 (혹은 동일한) 쌍을 음성으로 잘못 분류할 수 있어 노이즈가 많고 잠재적으로 일관성이 없는 정렬 지도 정보를 초래합니다. 본 연구에서는 먼저 훈련 과정에서 음성 영상-텍스트 유사성을 추적하는 예비적인 궤적 기반 분석을 수행했습니다. 그 결과는 소수의 음성 샘플만이 일관되게 밀려나는 바람직한 동작을 보이는 반면, 나머지 음성 샘플들은 이질적이고 종종 감소하지 않는 유사도 역학을 보이며, 이는 무작위 인-배치 음성 샘플들이 효과적인 정렬에 대해 자주 유용하지 않음을 시사합니다. 이러한 통찰을 바탕으로 우리는 손어 번역 (SLT) 을 위한 선택적 대조 학습 (Selective Contrastive Learning for SLT, SCL-SLT) 과 페어 선택 (Pair Selection, PS) 전략을 제안합니다. PS 는 참조 체크포인트에서의 유사도 역학을 사용하여 후보 음성 샘플에 점수를 부여하며, 커리큘럼을 통해 점차적으로 더 어려운 음성 샘플을 강조하는 방식으로 미니 배치들을 구성함으로써 대조적 지도 정보를 강화하고 노이즈가 있거나 의미적으로 무효인 음성 샘플의 영향을 줄입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0