다단계 LLM 파이프라인을 통한 구조 보존 문서 번역: Marathi 사례 연구
요약
Marathi어 정부 문서의 레이아웃을 유지하며 영어로 번역하는 다단계 LLM 파이프라인 연구를 소개합니다. OCR, LLM, HTML 재구성을 통합하여 문서의 구조적 무결성과 용어 일관성을 보장하는 프레임워크를 제안합니다.
핵심 포인트
- 레이아웃 인식 OCR과 좌표 기반 텍스트 추출 활용
- LLM을 통한 구조 보존형 Marathi-to-English 번역
- HTML 표현을 통한 문서 구조의 계층적 재구성
- 기존 텍스트 전용 방식 대비 구조 및 용어 일관성 향상
인도의 정부 문서는 주로 Marathi와 같은 지역 언어로 발행되어, 비모국어 독자, 주 간 행정 기관 및 정책 분석가들에게 상당한 접근성 장벽을 형성하고 있습니다. 최근 신경망 기계 번역 (Neural Machine Translation)의 발전으로 문장 수준의 번역 품질은 향상되었으나, 기존 시스템은 문서 구조, 서식의 무결성 및 도메인 특화 용어를 대체로 간과하고 있어 공식 문서에 대한 적용 가능성이 제한적입니다. 본 논문은 레이아웃 충실도 (Layout Fidelity)를 유지하면서 엔드 투 엔드 (End-to-End) 문서 변환을 수행할 수 있는 구조 보존형 Marathi-to-English 정부 문서 번역 프레임워크를 제시합니다. 제안된 시스템은 레이아웃 인식 광학 문자 인식 (Layout-aware OCR), 좌표 기반 텍스트 추출, 대규모 언어 모델 (Large Language Model, LLM) 기반 번역, 그리고 HTML 표현을 통한 구조화된 문서 재구성을 통합합니다. 공간 정렬 제약 조건을 강제하고 계층적 문서 요소를 보존함으로써, 본 프레임워크는 원문과 번역된 문서 간의 구조적 일관성을 보장합니다. 실제 Marathi 정부 PDF를 대상으로 한 실험적 평가 결과, 기존의 텍스트 전용 번역 파이프라인과 비교하여 구조 보존, 번역 일관성 및 용어 일관성이 향상되었음을 입증했습니다. 제안된 프레임워크는 전자 정부 (e-governance) 및 행정 문서 처리를 위한 확장 가능한 다국어 접근성 솔루션에 기여합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기