arXiv논문2026. 06. 01. 12:37

프리랜서를 위한 번역 분석 II: 기밀 번역 워크플로우를 위한 로컬 LLM 벤치마킹

요약

기밀 유지가 중요한 번역 환경을 위해 로컬 LLM의 성능을 벤치마킹한 연구입니다. 다국어 코퍼스(RFMC)를 활용해 Ollama 기반 로컬 모델들을 상용 NMT 및 프런티어 LLM과 비교 분석했습니다.

핵심 포인트

기밀 유지를 위한 오프라인 번역 워크플로우 제안
독일어, 중국어 포함 다국어 코퍼스(RFMC) 확장
로컬 LLM이 일부 영역에서 상용 NMT와 대등한 성능 확인
언어 방향 및 모델 크기에 따른 성능 차이 입증

이전 연구를 바탕으로, 본 논문은 프리랜서 번역가와 소규모 언어 서비스 제공업체(LSP)가 엄격하면서도 접근 가능한 분석 방법을 사용하여 번역 기술을 평가할 수 있는 실용적이고 진입 장벽이 낮은 방법을 개발합니다. 여기에서 우리는 보안 제약으로 인해 클라우드 기반 엔진 및 상용 LLM(Large Language Models)의 사용이 불가능한, 기밀 유지에 민감한 도메인을 위한 오프라인 번역이라는 매우 중요하고 특화된 요구 사항을 다룹니다. 우리는 이전 연구에서 사용된 Reeve Foundation Trilingual Corpus (RFTC)를 문장 정렬된 독일어 및 중국어 간체 참조 번역을 추가하여 다국어 코퍼스(RFMC)로 확장했습니다. 그런 다음 이 코퍼스에서 선정된 1,000개 이상의 문장을 대상으로 4가지 언어 방향에 대해 (Ollama를 통해) 로컬에서 실행 가능한 여러 언어 모델을 벤치마킹합니다. 우리는 미세 조정(Fine-tuning)이나 도메인 적응(Domain adaptation) 없이 일관된 싱글 프롬프트 호출(Single-prompt calls)을 사용하며, 로컬 LLM의 출력을 상용 NMT(Neural Machine Translation, 신경망 기계 번역) (DeepL, Baidu), 프런티어 LLM (GPT-5.2), 그리고 전문가급 로컬 NMT 시스템 (OPUS-CAT, NeuralDesktop, Promt)과 비교합니다. 자동 평가는 MATEO를 통해 수행됩니다. 결과에 따르면 언어 방향과 모델 크기에 따라 로컬 LLM의 성능에 상당한 차이가 있음이 드러났습니다. 가장 우수한 로컬 LLM은 로컬 NMT 시스템 및 프런티어 LLM과 대등하거나 이를 능가하지만, 최상위 상용 NMT에는 여전히 뒤처져 있습니다. 이러한 발견은 개인정보 보호 제약이 있는 전문가들에게 신중하게 선택된 로컬 LLM 번역이 실행 가능하다는 점을 강조하며, 모델 스케일링(Scaling) 및 다국어 능력에 관한 향후 연구에 정보를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

프리랜서를 위한 번역 분석 II: 기밀 번역 워크플로우를 위한 로컬 LLM 벤치마킹

요약

핵심 포인트

댓글