arXiv논문2026. 06. 30. 11:09

Experience Replay와 Model Soups를 통한 21개 인도 언어 대상 IndicTrans2의 대화형 도메인 적응

요약

IndicTrans2 모델을 21개 인도 언어의 대화체 도메인에 적응시키는 연구입니다. Experience Replay와 Model Soups 기법을 결합하여 일반 도메인의 성능 저하 없이 대화형 번역 성능을 크게 향상시켰습니다.

핵심 포인트

Experience Replay와 Model Soups를 결합해 성능 트레이드오프 해결
21개 인도 언어에서 대화형 chrF 성능 평균 6.2점 향상
일반 도메인(FLORES) 성능을 기존 수준으로 유지
단순 미세 조정 시 발생하는 일반 도메인 망각 문제 극복

IndicTrans2는 가장 강력한 오픈 소스 영어-인도 언어 번역 시스템이지만, 대부분의 시스템과 마찬가지로 일반 텍스트로 학습되어 일상적인 대화형 입력에서는 말투가 딱딱해지는 경향이 있습니다. 우리는 공개 데이터(OpenSubtitles, BPCC-H-Daily, Tatoeba)만을 사용하여 21개 인도 언어 전체에 대해 IndicTrans2-1B를 대화체 레지스터 (conversational register)로 적응시킵니다. 단순한 미세 조정 (fine-tuning)은 대화형 chrF를 개선하지만 일반 도메인을 망각합니다 (힌디어의 경우 FLORES에서 3.9 chrF 하락). 일반 데이터를 다시 학습에 혼합하는 방식 (experience replay)과 미세 조정된 가중치를 베이스 모델과 평균 내는 방식 (model souping)을 결합하면 이러한 트레이드오프 (trade-off)를 제거할 수 있습니다. 그 결과, 생성된 모델은 21개 언어 모두에서 대화형 chrF 성능이 IndicTrans2-1B를 능가하며 (평균 +6.2), FLORES 성능은 대등하게 유지합니다 (평균 변화 -0.17, 모두 0.7 chrF 이내). 쌍체 부트스트랩 테스트 (Paired bootstrap tests)를 통해 대화형 성능 향상이 유의미하며 (p <= 0.004), FLORES 성능이 유의미하게 저하되지 않았음을 확인했습니다. 우리는 범위를 신중하게 설정했습니다. 이러한 결과는 chrF 상의 이득이며, 블라인드 인간 평가 및 멀티 모델 LLM 체크를 통해 인지된 품질 향상으로 확인되지는 않았으므로, 우리는 대화형 이득을 더 나은 번역의 증거라기보다는 참조 문헌(references)과의 레지스터 일치로 간주합니다. 이 기술들은 새로운 것이 아닙니다. 본 연구의 기여는 인도 대화형 환경에서의 정직한 엔드투엔드 (end-to-end) 연구라는 점에 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Experience Replay와 Model Soups를 통한 21개 인도 언어 대상 IndicTrans2의 대화형 도메인 적응

요약

핵심 포인트

댓글