저자원 언어를 위한 텍스트 정화(Text Detoxification) 시스템 Tatoxa: 타타르어 사례 연구
요약
저자원 언어인 타타르어를 위한 텍스트 정화 시스템 Tatoxa를 제안하는 연구입니다. 기존 LLM보다 뛰어난 성능을 보였으며, 타타르어 전용 데이터셋과 교차 언어 전이 실험 결과를 포함합니다.
핵심 포인트
- 타타르어 특화 텍스트 정화 시스템 Tatoxa 제안
- 기존 오픈 소스 및 상용 LLM 대비 우수한 성능 입증
- 저자원 환경을 위한 새로운 타타르어 정화 데이터셋 공개
- 러시아어 등 타 언어로부터의 교차 언어 전이 한계 확인
텍스트 정화 (Text detoxification), 즉 유해하고 해로운 콘텐츠를 자동으로 탐지하고 완화하는 작업은 온라인 커뮤니티의 안전을 보장하고 사용자를 보호하는 데 필수적입니다. 그러나 타타르어 (Tatar)와 같은 저자원 언어 (low resource languages)는 연구적 관심이 거의 미미했습니다. 본 논문에서는 타타르어의 텍스트 정화를 위한 새로운 최첨단 (state-of-the-art) 시스템인 Tatoxa를 제시합니다. 비교 실험 결과, 제안된 접근 방식은 주요 품질 지표에서 기존의 오픈 소스 (open source) 및 독점 상용 거대언어모델 (LLMs)보다 뛰어난 성능을 보였습니다. 또한, 우리는 저자원 환경에서의 미세 조정 (fine tuning) 및 평가를 위해 설계된 타타르어 텍스트 정화용 새로운 데이터셋을 소개합니다. 마지막으로, 교차 언어 전이 (cross lingual transfer) 실험에 따르면, 문화적으로 가까운 러시아어 (Russian)를 포함한 다른 언어로부터의 전이는 대규모 러시아어 코퍼스 (corpus)가 사용 가능할 때조차도 모국어인 타타르어 데이터로 학습하는 것보다 성능이 현저히 떨어지는 것으로 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기