본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 19. 11:46

CzechDocs: 체코 내 소수 언어를 위한 서식 지정 문서의 다방향 병렬 데이터셋

요약

체코어 및 소수 언어의 서식(HTML, DOCX, PDF)을 보존하는 다방향 병렬 데이터셋인 CzechDocs를 소개합니다. 기계 번역 시스템이 문서의 레이아웃을 유지하며 번역하는 능력을 평가하고 연구할 수 있도록 설계되었습니다.

핵심 포인트

  • 체코어 및 우크라이나어, 영어 등 소수 언어 포함
  • HTML, DOCX, PDF 등 문서 서식 보존에 특화
  • 서식 보존 기계 번역 평가를 위한 검증 데이터셋 제공
  • 향후 문서 수준 번역 연구를 위한 테스트 분할 예약

우리는 체코어 및 체코 내에서 사용되는 소수 언어(주로 우크라이나어와 영어, 그리고 베트남어, 러시아어 및 기타 언어의 적은 비중)를 다루는 서식 지정 문서(HTML, DOCX, PDF)의 다방향 병렬 데이터셋인 CzechDocs를 선보입니다. 이 데이터셋은 번역 과정에서 문서 서식(document formatting)을 보존하는 것을 목표로 하는 기계 번역(machine translation) 시스템의 평가를 지원하도록 설계되었습니다. 우리는 데이터셋의 검증(validation) 서브셋을 통해 서식 보존 기계 번역(format-preserving machine translation)에 대한 가장 일반적인 접근 방식들을 비교하여 제공합니다. 이 검증 분할(validation split)은 평가 툴킷(evaluation toolkit)과 함께 추가 연구를 위해 공개적으로 출시됩니다. 별도로 분리된 테스트 분할(held-out test split)은 서식 보존을 포함한 문서 수준 번역(document-level translation)에 초점을 맞춘 향후 공유 과제(shared task)를 위해 예약될 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0