arXiv논문2026. 04. 29. 15:05

백트랜슬레이션 증강 직접 선호 최적화를 통한 신경 기계 번역

요약

본 논문은 기존의 지도 학습 방식에 의존하는 신경 기계 번역(NMT) 시스템이 가지는 지속적인 오류 문제를 해결하기 위해 강화 학습 기반의 후학습 패러다임을 제안합니다. 특히, 일반 텍스트 코퍼스와 전문가 피드백만으로 반복적인 개선이 가능한 새로운 프레임워크를 소개하며, 이 접근 방식을 직접 선호 최적화(DPO) 기법을 사용하여 구현했습니다. 실험 결과, DPO 기반 후학습은 영어-독일어 번역 작업에서 COMET 점수를 유의미하게 향상시켜 NMT 모델의 전반적인 품질 개선 가능성을 입증했습니다.

핵심 포인트

NMT 시스템의 오류 수정 및 성능 향상을 위해 강화 학습(RL) 기반 후학습 패러다임을 도입함.
새로운 프레임워크는 일반 텍스트 코퍼스와 전문가 피드백만으로 반복적인 모델 개선이 가능하게 함.
직접 선호 최적화(DPO)를 활용하여 NMT 모델을 효율적이고 안정적으로 후학습할 수 있음을 입증함.
실험 결과, DPO 기반 접근 방식은 영어-독일어 번역 작업의 COMET 점수를 0.703에서 0.747로 크게 향상시킴.

현대의 신경 기계 번역 (Neural Machine Translation, NMT) 시스템은 거의 전적으로 감독 학습용 병렬 데이터로 훈련하여 구축됩니다. 거대한 진보를 이루었음에도 불구하고 이러한 시스템은 여전히 지속적인 번역 오류를 보입니다. 본 논문에서는 강화 학습 (Reinforcement Learning, RL) 을 기반으로 한 후학습 패러다임이 이러한 실수를 효과적으로 수정할 수 있다고 제안합니다. 우리는 일반 텍스트 코퍼스 (text corpus) 와 전문가 통역사 (인간 또는 AI 시스템) 만으로 반복적인 피드백을 제공할 수 있는 새로운 프레임워크를 소개합니다. 우리의 실험에서는 대표적인 고자원 언어 쌍인 영어에서 독일어로의 번역에 특히 중점을 둡니다.至关重要的是, 우리는 이 RL 기반 후학습을 직접 선호 최적화 (Direct Preference Optimization, DPO) 를 사용하여 구현했습니다. 제안한 DPO 기반 프레임워크를 gemma3-1b 모델에 적용한 결과, 영어에서 독일어로의 작업에서 COMET 점수가 0.703 에서 0.747 로 크게 향상되는 번역 품질 개선이 이루어졌습니다. 이 결과는 DPO 가 선호도 기반 후학습을 통해 사전 훈련된 NMT 모델을 효율적이고 안정적으로 향상시킬 수 있는 경로를 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

백트랜슬레이션 증강 직접 선호 최적화를 통한 신경 기계 번역

요약

핵심 포인트

댓글