글로스 프리 손어 번역을 위한 선택적 대조 학습

손어 번역 (SLT) 은 연속적인 손어 영상을 구어체 텍스트로 변환하지만, 시각적 손어와 문자 텍스트 사이의 고유한 모달리티 불일치로 인해 여전히 어려움이 있으며, 특히 글로스 프리(gloss-free) 환경에서는 이러한 문제가 더욱 두드러집니다. 최근 SLT 시스템들은 교차 모달리티 정렬을 위해 CLIP 와 유사한 비전-언어 사전 학습 (Vision-Language pretraining, VLP) 을 점차적으로 도입하고 있으나, 무작위 인-배치 대조 (random in-batch contrast) 는 배치에 의존적인 소수의 음성 샘플만 제공하며, 의미적으로 유사한 (혹은 동일한) 쌍을 음성으로 잘못 분류할 수 있어 노이즈가 많고 잠재적으로 일관성이 없는 정렬 지도 정보를 초래합니다. 본 연구에서는 먼저 훈련 과정에서 음성 영상-텍스트 유사성을 추적하는 예비적인 궤적 기반 분석을 수행했습니다. 그 결과는 소수의 음성 샘플만이 일관되게 밀려나는 바람직한 동작을 보이는 반면, 나머지 음성 샘플들은 이질적이고 종종 감소하지 않는 유사도 역학을 보이며, 이는 무작위 인-배치 음성 샘플들이 효과적인 정렬에 대해 자주 유용하지 않음을 시사합니다. 이러한 통찰을 바탕으로 우리는 손어 번역 (SLT) 을 위한 선택적 대조 학습 (Selective Contrastive Learning for SLT, SCL-SLT) 과 페어 선택 (Pair Selection, PS) 전략을 제안합니다. PS 는 참조 체크포인트에서의 유사도 역학을 사용하여 후보 음성 샘플에 점수를 부여하며, 커리큘럼을 통해 점차적으로 더 어려운 음성 샘플을 강조하는 방식으로 미니 배치들을 구성함으로써 대조적 지도 정보를 강화하고 노이즈가 있거나 의미적으로 무효인 음성 샘플의 영향을 줄입니다.

Insights

글로스 프리 손어 번역을 위한 선택적 대조 학습

요약

핵심 포인트

댓글

지금 바로 AI 트레이딩 시스템으로 전환해야 하는 이유 — 비트코인 및 암호화폐 (BTC, ETH, Perps)

지금 당장 AI 트레이딩 시스템으로 전환해야 하는 이유 — 옵션 (SPX, DAX, Nikkei, KOSPI 등)

지금 바로 AI 트레이딩 시스템으로 전환해야 하는 이유 — 선물 (CME, Eurex, SGX, ASX 등)

AI 코딩 에이전트에게 모호한 버그 수정을 요청하는 것을 멈추세요

지금 바로 AI 트레이딩 시스템으로 전환해야 하는 이유 — 비트코인 및 암호화폐 (BTC, ETH, Perps)

지금 당장 AI 트레이딩 시스템으로 전환해야 하는 이유 — 옵션 (SPX, DAX, Nikkei, KOSPI 등)

지금 바로 AI 트레이딩 시스템으로 전환해야 하는 이유 — 선물 (CME, Eurex, SGX, ASX 등)

AI 코딩 에이전트에게 모호한 버그 수정을 요청하는 것을 멈추세요