Experience Replay와 Model Soups를 통한 21개 인도 언어 대상 IndicTrans2의 대화형 도메인 적응
요약
IndicTrans2 모델을 21개 인도 언어의 대화체 도메인에 적응시키는 연구입니다. Experience Replay와 Model Soups 기법을 결합하여 일반 도메인의 성능 저하 없이 대화형 번역 성능을 크게 향상시켰습니다.
핵심 포인트
- Experience Replay와 Model Soups를 결합해 성능 트레이드오프 해결
- 21개 인도 언어에서 대화형 chrF 성능 평균 6.2점 향상
- 일반 도메인(FLORES) 성능을 기존 수준으로 유지
- 단순 미세 조정 시 발생하는 일반 도메인 망각 문제 극복
IndicTrans2는 가장 강력한 오픈 소스 영어-인도 언어 번역 시스템이지만, 대부분의 시스템과 마찬가지로 일반 텍스트로 학습되어 일상적인 대화형 입력에서는 말투가 딱딱해지는 경향이 있습니다. 우리는 공개 데이터(OpenSubtitles, BPCC-H-Daily, Tatoeba)만을 사용하여 21개 인도 언어 전체에 대해 IndicTrans2-1B를 대화체 레지스터 (conversational register)로 적응시킵니다. 단순한 미세 조정 (fine-tuning)은 대화형 chrF를 개선하지만 일반 도메인을 망각합니다 (힌디어의 경우 FLORES에서 3.9 chrF 하락). 일반 데이터를 다시 학습에 혼합하는 방식 (experience replay)과 미세 조정된 가중치를 베이스 모델과 평균 내는 방식 (model souping)을 결합하면 이러한 트레이드오프 (trade-off)를 제거할 수 있습니다. 그 결과, 생성된 모델은 21개 언어 모두에서 대화형 chrF 성능이 IndicTrans2-1B를 능가하며 (평균 +6.2), FLORES 성능은 대등하게 유지합니다 (평균 변화 -0.17, 모두 0.7 chrF 이내). 쌍체 부트스트랩 테스트 (Paired bootstrap tests)를 통해 대화형 성능 향상이 유의미하며 (p <= 0.004), FLORES 성능이 유의미하게 저하되지 않았음을 확인했습니다. 우리는 범위를 신중하게 설정했습니다. 이러한 결과는 chrF 상의 이득이며, 블라인드 인간 평가 및 멀티 모델 LLM 체크를 통해 인지된 품질 향상으로 확인되지는 않았으므로, 우리는 대화형 이득을 더 나은 번역의 증거라기보다는 참조 문헌(references)과의 레지스터 일치로 간주합니다. 이 기술들은 새로운 것이 아닙니다. 본 연구의 기여는 인도 대화형 환경에서의 정직한 엔드투엔드 (end-to-end) 연구라는 점에 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기