arXiv논문2026. 06. 01. 12:03

대규모 언어 모델(LLM)을 활용한 수어 번역(SLT)용 타겟 측 패러프레이즈 증강

요약

본 연구는 데이터 부족 문제를 해결하기 위해 GPT-4o를 활용하여 수어 번역(SLT)의 타겟 문장을 패러프레이징하는 증강 기법을 제안합니다. Signformer 모델을 사용하여 사전 학습과 미세 조정을 수행하며, 실험 결과 PHOENIX14T 데이터셋에서 성능 향상을 확인했습니다.

핵심 포인트

GPT-4o를 이용한 타겟 측 패러프레이즈 증강 기법 제안
Signformer 기반의 2단계 학습(사전 학습 및 미세 조정) 적용
PHOENIX14T 데이터셋에서 BLEU-4 점수 향상 입증
LLM 생성 데이터와 LLM-as-a-Judge 평가를 SLT에 최초 적용

수어 번역 (Sign language translation, SLT)은 제한된 수어-비디오/텍스트 쌍 코퍼스(corpora)와 헤비 테일 (heavy-tailed) 형태의 타겟 어휘로 인해 여전히 제약을 받고 있습니다. 본 연구에서는 수어 입력은 변경하지 않은 채, GPT-4o가 참조 문장의 통제된 패러프레이즈 (paraphrase) 변형을 생성하는 타겟 측 증강 (target-side augmentation)을 연구합니다. Signformer 스타일의 포즈 기반 트랜스포머 (Transformer)는 2단계 일정에 따라 학습됩니다: 증강된 코퍼스에서의 사전 학습 (pre-training) 후, 원래의 참조 문장을 통한 미세 조정 (fine-tuning) 단계입니다. 우리는 상호 보완적인 과제들을 아우르는 세 가지 데이터셋에서 평가를 수행했습니다: 중간 정도의 어휘 다양성을 가진 PHOENIX14T (독일 수어), 고도로 통제되고 반복적인 녹화물이 특징인 GSL (그리스 수어), 그리고 심각한 롱테일 희소성 (long-tail sparsity)을 가진 LSA-T (아르헨티나 수어)입니다. PHOENIX14T에서 증강은 BLEU-4 점수를 9.56에서 10.33으로 향상시켰습니다. 거의 포화 상태인 GSL 베이스라인과 극도로 희소한 LSA-T 설정은 이 접근 방식의 한계를 보여줍니다. 우리가 알기로는, 이것이 SLT에 LLM 생성 타겟 측 패러프레이즈와 LLM-as-a-Judge 평가를 적용한 첫 번째 연구입니다. 의미론적 평가 (semantic evaluation) 결과, 어휘 중첩 지표 (lexical overlap metrics)가 과소평가하는 충실도 (fidelity) 측면의 이득이 확인되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델(LLM)을 활용한 수어 번역(SLT)용 타겟 측 패러프레이즈 증강

요약

핵심 포인트

댓글