문학 텍스트의 AI 번역은 "괜찮지만", 독자들은 여전히 인간의 번역을 선호한다
요약
LLM 기반 문학 번역과 인간 번역을 비교 연구한 결과, 독자들은 유창성 측면에서 AI 번역을 '괜찮다'고 평가하면서도 몰입감과 문학적 효과 측면에서는 인간의 번역을 선호함을 확인했습니다. 또한 자동 평가 지표가 실제 독자의 선호도를 정확히 반영하지 못한다는 점을 지적하며, 새로운 평가 데이터셋인 LAIT를 공개했습니다.
핵심 포인트
- 독자들은 AI 번역의 품질을 인정하면서도 몰입감 측면에서 인간 번역을 선호함
- LLM-as-a-judge 등 자동 지표는 실제 독자의 선호도를 제대로 반영하지 못함
- AI 번역은 한 권의 책 내에서도 품질 변동성이 인간 번역보다 크게 나타남
- 문학적 번역 평가를 위한 독자 중심 데이터셋 LAIT 공개
문학 작품의 AI 번역은 점점 더 흔해지고 있습니다. 내용은 적절하게 표현될 수 있지만, 자동 기계 번역 (MT) 지표나 유창성(fluency) 및 적절성(adequacy)을 목표로 하는 인간 평가로는 제대로 포착하기 어려운 측면인 몰입감(immersiveness)과 문학적 효과(literary effect) 측면에서 독자들이 이를 어떻게 경험하는지에 대해서는 충분히 알지 못합니다. 우리는 15명의 열성적인 독자들에게 프랑스어, 폴란드어, 일본어로 된 최근 소설 15권에 대해, 에이전트 기반 대규모 언어 모델 (LLM) 파이프라인으로 생성된 기계 번역 (MT)과 최근 출판된 인간 번역 (HT)을 비교하도록 요청했습니다. 독자들은 약 8,000단어 분량의 발췌문을 두 가지 조건으로 평가했습니다: 발췌문 전체를 몰입하여 읽기 (30회 비교) 및 386개의 정렬된 HT-MT 청크 쌍에 대한 정독 (772회 비교). 각 도서당 2명의 독자가 참여했으며, 제시 순서는 교대로 진행되었습니다. 전반적으로 독자들은 MT가 "괜찮다"고 생각하지만, 편의성, 명확성 및 몰입감 측면에서 HT를 선호했습니다 (발췌문 수준에서는 약간, 청크 수준에서는 522/772로 더 명확하게). 독자들의 하이라이트 분석 결과, MT의 품질은 HT보다 한 권의 책 내에서 더 큰 변동을 보였습니다. 결정적으로, 독자들은 두 번역을 안정적으로 구별하지 못하며 (17/30명이 정확히 추측), 자신이 인간이 번역했다고 믿는 버전을 선호하는 경향이 있습니다. LLM-as-a-judge 접근 방식을 포함한 자동 지표들은 독자의 선호도를 복원하는 데 실패하며 MT를 선호합니다. 우리는 1,000개의 독자 댓글, 2,000개의 판단 및 선호도 등급, 7,200개의 구간 수준 (span-level) 주석을 포함한 독자 중심 평가 데이터셋인 LAIT (Literary AI Translation)와 함께, 우리의 평가 프로토콜 및 지원 인터페이스를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기