압박 속 번역: 위기 커뮤니케이션을 위한 도메인 인식 LLM
요약
본 논문은 자연재해나 인재로 인한 재난 상황에서 필수적인 다국어 위기 커뮤니케이션 솔루션을 제시합니다. 제한된 병렬 데이터 문제를 해결하기 위해 일반 코퍼스에서 데이터를 검색하고 필터링하여 도메인 적응 파이프라인을 구축했습니다. 이 과정을 통해 얻은 데이터셋으로 특화된 소형 언어 모델을 미세 조정하고, CEFR A2 레벨 영어로 출력을 편향시켜 가독성과 적절성을 모두 높이는 방법을 제안합니다.
핵심 포인트
- 위기 커뮤니케이션 분야는 정제된 병렬 데이터 부족이라는 근본적인 한계에 직면해 있습니다.
- 일반 코퍼스를 활용하여 데이터를 검색하고 필터링하는 도메인 적응 파이프라인을 구축했습니다.
- 특화된 소형 언어 모델(SLM)을 미세 조정하고, CEFR A2 레벨 영어로 출력을 편향시키는 선호도 최적화를 적용했습니다.
- 단순화된 영어가 도메인 적응과 결합될 경우, 완전한 다국어 커버리지가 어려울 때도 실용적인 비상 소통 수단이 될 수 있음을 입증했습니다.
자연재해와 인재로 인한 재난 시에는 적시적이고 신뢰할 수 있는 다국어 소통이 필수적이지만, 효과적인 위기 커뮤니케이션 솔루션 개발은 정제된 병렬 데이터의 부족으로 인해 제한받고 있습니다. 우리는 일반 코퍼스에서 데이터를 검색하고 필터링하여 소규모 참조 코르푸스를 확장하는 도메인 적응 파이프라인을 제안합니다. 생성된 데이터셋을 사용하여 위기 도메인 번역에 특화된 소형 언어 모델을 미세 조정 (fine-tune) 한 후, 출력을 CEFR A2 레벨 영어로 편향시키기 위해 선호도 최적화 (preference optimization) 를 적용합니다. 자동 평가와 인간 평가 모두 이 접근법이 가독성을 향상시키면서 동시에 강력한 적절성 (adequacy) 을 유지함을 보여줍니다. 우리의 결과는 단순화된 영어가 도메인 적응과 결합될 때, 완전한 다국어 커버리지가 실현 불가능할 경우에도 비상 소통을 위한 실용적인 링구아 프랑카 (lingua franca) 로 기능할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기