BabelDOC: 중간 표현(Intermediate Representation)을 활용한 레이아웃 보존 PDF 번역 개선
요약
BabelDOC은 중간 표현(IR) 기반의 프레임워크로, 레이아웃 보존이 필수적인 PDF 문서 번역의 어려움을 해결합니다. 이 시스템은 시각적 레이아웃 메타데이터를 의미론적 콘텐츠와 분리하여 추출하고, 이를 통해 용어집 제약이나 페이지 간 문맥 처리 같은 고급 문서 수준의 번역 작업을 수행할 수 있습니다. 이후 적응형 조판 엔진을 사용하여 원본 PDF의 레이아웃에 맞춰 번역된 내용을 재고정함으로써 높은 충실도와 일관성을 유지합니다.
핵심 포인트
- BabelDOC은 중간 표현(IR)을 활용하여 텍스트 콘텐츠와 시각적 레이아웃 메타데이터를 분리 처리하는 것이 핵심입니다.
- 이 프레임워크는 단순 번역을 넘어, 용어집 제약, 페이지 간 문맥 처리 등 복잡한 문서 수준의 번역 작업을 지원합니다.
- 번역된 결과물은 적응형 조판 엔진(adaptive typesetting engine)을 통해 원본 레이아웃에 충실하게 재렌더링됩니다.
- 벤치마크 테스트 결과, BabelDOC은 레이아웃 충실도와 시각적 심미성 측면에서 기존 시스템 대비 우수함을 입증했습니다.
글로벌 교차 언어 커뮤니케이션이 심화됨에 따라, PDF와 같이 시각적으로 풍부한 문서의 언어 장벽은 여전히 실질적인 병목 현상으로 남아 있습니다. 기존의 문서 번역 파이프라인은 언어 처리와 레이아웃 보존 사이에서 긴장 관계를 겪습니다. 텍스트 중심의 컴퓨터 지원 번역(CAT) 시스템은 종종 구조적 메타데이터를 폐기하며, 문서 파서는 추출에 초점을 맞추어 번역 후 충실한 재렌더링을 지원하지 않습니다. 본 논문에서는 레이아웃 보존 PDF 번역을 위한 중간 표현(IR)-기반 프레임워크인 BabelDOC을 소개합니다. BabelDOC은 시각적 레이아웃 메타데이터를 의미론적 콘텐츠로부터 분리하여, 용어 추출, 페이지 간 문맥 처리, 용어집 제약 생성, 공식 자리 표시자 지정과 같은 문서 수준의 번역 작업을 가능하게 합니다. 이후 번역된 콘텐츠는 적응형 조판 엔진(adaptive typesetting engine)을 통해 원래 레이아웃에 재고정됩니다. 200페이지 분량으로 구성된 벤치마크를 사용한 실험 결과와 인간 평가, 그리고 멀티모달 LLM-as-a-judge 평가를 종합했을 때, BabelDOC은 대표적인 베이스라인 대비 레이아웃 충실도, 시각적 심미성, 용어 일관성을 향상시키는 동시에 경쟁력 있는 번역 정밀도를 유지함을 보여줍니다. 오픈 소스 툴킷과 그 상호작용 가능한 다운스트림 애플리케이션은 공개되어 있으며, 작성 시점 기준으로 8.4K 이상의 GitHub 스타와 17명의 기여자들을 확보했습니다. 또한 데모 영상도 제공됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기