arXiv논문2026. 06. 25. 12:21

저자원 언어를 위한 텍스트 정화(Text Detoxification) 시스템 Tatoxa: 타타르어 사례 연구

요약

저자원 언어인 타타르어를 위한 텍스트 정화 시스템 Tatoxa를 제안하는 연구입니다. 기존 LLM보다 뛰어난 성능을 보였으며, 타타르어 전용 데이터셋과 교차 언어 전이 실험 결과를 포함합니다.

핵심 포인트

타타르어 특화 텍스트 정화 시스템 Tatoxa 제안
기존 오픈 소스 및 상용 LLM 대비 우수한 성능 입증
저자원 환경을 위한 새로운 타타르어 정화 데이터셋 공개
러시아어 등 타 언어로부터의 교차 언어 전이 한계 확인

텍스트 정화 (Text detoxification), 즉 유해하고 해로운 콘텐츠를 자동으로 탐지하고 완화하는 작업은 온라인 커뮤니티의 안전을 보장하고 사용자를 보호하는 데 필수적입니다. 그러나 타타르어 (Tatar)와 같은 저자원 언어 (low resource languages)는 연구적 관심이 거의 미미했습니다. 본 논문에서는 타타르어의 텍스트 정화를 위한 새로운 최첨단 (state-of-the-art) 시스템인 Tatoxa를 제시합니다. 비교 실험 결과, 제안된 접근 방식은 주요 품질 지표에서 기존의 오픈 소스 (open source) 및 독점 상용 거대언어모델 (LLMs)보다 뛰어난 성능을 보였습니다. 또한, 우리는 저자원 환경에서의 미세 조정 (fine tuning) 및 평가를 위해 설계된 타타르어 텍스트 정화용 새로운 데이터셋을 소개합니다. 마지막으로, 교차 언어 전이 (cross lingual transfer) 실험에 따르면, 문화적으로 가까운 러시아어 (Russian)를 포함한 다른 언어로부터의 전이는 대규모 러시아어 코퍼스 (corpus)가 사용 가능할 때조차도 모국어인 타타르어 데이터로 학습하는 것보다 성능이 현저히 떨어지는 것으로 나타났습니다.

AI 자동 생성 콘텐츠

원문 바로가기

저자원 언어를 위한 텍스트 정화(Text Detoxification) 시스템 Tatoxa: 타타르어 사례 연구

요약

핵심 포인트

댓글