LLM 유도 비디오 스티칭을 통한 수어 번역용 코퍼스 증강 (Corpus Augmentation for Sign Language
요약
수어 번역(SLT) 성능 향상을 위해 LLM과 비디오 스티칭 기술을 활용한 새로운 코퍼스 증강 방식을 제안합니다. 추가적인 인간 주석이나 생성형 비디오 모델 없이도 고품질의 합성 비디오-텍스트 쌍을 생성하여 모델의 일반화 능력을 높입니다.
핵심 포인트
- LLM과 CTC 강제 정렬을 이용한 데이터 증강 기법 제안
- 기존 방식 대비 BLEU-4 점수 2.92 상승 달성
- 추가적인 외부 데이터나 생성 모델 없이 기존 코퍼스만 활용
- 급격한 경계(abrupt boundaries)가 암시적 규제 역할을 할 수 있음을 발견
수어 번역 (Sign language translation, SLT)은 수어 비디오를 구어체 텍스트로 변환하며, 이는 접근성을 향상시키고 수어 사용자 공동체와 비수어 사용자 공동체 간의 의사소통을 가능하게 하는 데 큰 잠재력을 가지고 있습니다. 대규모의 약하게 정렬된 (weakly-aligned) 데이터셋이 대규모 사전 학습 (pre-training)을 가능하게 하고, 글로스 프리 (gloss-free) 방식이 전문가 주석에 대한 의존도를 낮추었지만, 미세 조정 (fine-tuning)을 위한 고품질의 병렬 수어 비디오-텍스트 쌍은 여전히 부족하여 롱테일 어휘 (long-tail vocabulary) 및 미학습 구문 (unseen constructions)에 대한 일반화 능력을 제한하고 있습니다. 우리는 추가적인 인간 주석, 외부 수어 비디오 코퍼스, 또는 생성형 비디오 모델 (generative video models)이 필요하지 않은 코퍼스 증강 (corpus augmentation) 접근 방식을 제안합니다. 이 방식은 기존의 글로스 주석이 달린 학습 코퍼스와 문장 생성을 위한 LLM에만 의존합니다. 구체적으로, CTC 강제 정렬 (CTC forced-alignment)을 통해 학습 비디오에서 글로스별 클립을 추출하고, 코퍼스 기반 LLM을 통해 새로운 글로스-문장 쌍을 생성하며, 무작위 문장 샘플링 및 클립 할당을 통해 합성 시퀀스를 조립합니다. 결과물인 합성 RGB 비디오-텍스트 쌍은 다운스트림 학습 단계에서 아키텍처에 구애받지 않으며, RGB 기반 SLT 모델에서 직접 소비되거나 비디오에서 이러한 입력을 도출하는 파이프라인을 통해 포즈 (pose) 또는 특징 (feature) 표현으로 변환될 수 있습니다. Sincan 등은 엄격하게 동일한 조건 하에서 최근의 다섯 가지 글로스 프리 방식을 재평가했습니다. GFSLT-VLP 베이스라인 대비 검증된 최대 이득은 0.98 BLEU-4에 불과했습니다. 동일한 프레임워크 내에서 적용된 우리의 증강 방식은 아키텍처나 학습 프로토콜의 변경 없이 +2.92 BLEU-4를 달성합니다. 우리는 더 나아가 합성 데이터가 시각-언어 사전 학습 (vision-language pretraining)의 목적 함수를 개선함에도 불구하고 오히려 해를 끼칠 수 있다는 점과, 시각적 부드러움을 위해 클립 전환을 최적화하는 것이 L2 기반 기준 하에서는 역효과를 낼 수 있다는 점을 확인했습니다. 우리는 급격한 경계 (abrupt boundaries)가 일종의 암시적 규제 (implicit regularisation) 역할을 할 수 있다고 제안합니다. 코드는 https://github.com/robizso/slt-datagen 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기