CAT-Translate: 일-영 번역을 위한 소형 오픈 소스 모델 구축
요약
일-영 양방향 번역에 특화된 소형 오픈 소스 모델 제품군(0.8B~7B)을 개발하고 그 효용성을 입증했습니다. 합성 데이터 기반의 2단계 미세 조정과 Multi-Objective GRPO 방식을 사용하여 특정 도메인에서 대규모 다국어 모델보다 뛰어난 성능을 보였습니다.
핵심 포인트
- 일-영 번역에 특화된 0.8B~7B 규모의 소형 모델 개발
- 합성 병렬 코퍼스와 Multi-Objective GRPO 학습 방식 채택
- 비즈니스, 법률, 의료 등 특정 도메인에서 대규모 모델 능가
- 특화된 소형 모델 개발의 실질적 유용성 확인
오늘날 대규모 다국어 번역 모델(large multilingual translation models)은 기계 번역 벤치마크에서 인상적인 번역 능력을 보여주고 있습니다. 이는 개발자들에게 다음과 같은 실질적인 질문을 던집니다. 만약 특정 언어 쌍(language pair)만을 지원해야 한다면, 해당 언어 쌍에 특화된 번역 모델을 개발할 가치가 있을까요? 이 질문에 대한 일화적인 답변을 제공하기 위해, 우리는 일-영 양방향 번역(Japanese-English bidirectional translation)에 특화된 소형 언어 모델(small language models; 0.8B, 1.4B, 3.3B, 7B 파라미터) 제품군을 개발했습니다. 우리는 합성 생성된 병렬 코퍼스(parallel corpora)로 모델을 학습시키기 위해, 2단계 지도 미세 조정(supervised fine-tuning) 방식에 이어서 다중 목적 GRPO (Multi-Objective GRPO; Ichihara et al. 2025)를 채택했습니다. 우리는 비즈니스, 법률, 의료, 금융 및 특허 도메인에 걸친 WMT 및 실제 번역 벤치마크에서 모델을 평가했습니다. 다국어 모델이 WMT 벤치마크에서 강력한 성능을 달성하는 반면, 우리의 소형 모델(compact models)은 실제 벤치마크에서 이들을 능가하며, 이는 대규모 다국어 모델의 시대에도 특화된 번역 모델을 개발하는 것이 실질적인 유용성이 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기