창의성 편향: 기계 평가가 문학 번역의 창의성을 다루는 데 겪는 어려움
요약
이 논문은 다양한 언어와 장르에 걸친 문학 번역의 창의성 평가에 자동 평가 지표(AEMs)와 LLM-as-a-judge 방식을 적용하여 그 성능을 조사했습니다. 연구 결과, AEMs와 LLM-as-a-judge 모두 전문가들의 창의성 평가와 낮은 상관관계를 보였으며, 특히 LLM-as-a-judge는 기계 번역에 유리하고 문화적으로 적절한 해결책에 패널티를 주는 체계적인 편향을 나타냈습니다. 이는 문학 번역 분야에서 현재 자동화된 평가 도구들이 가진 근본적인 한계를 보여줍니다.
핵심 포인트
- 자동 평가 지표(AEMs)와 LLM-as-a-judge는 문학 번역의 창의성 평가에 있어 전문가 의견과 낮은 상관관계를 보인다.
- LLM-as-a-judge는 기계 번역된 텍스트에 유리하게 작용하는 체계적인 편향을 보였다.
- 시(poetry)와 같이 문학성이 높은 장르일수록 자동 평가 도구의 성능이 일관되게 낮다.
- 문학 번역의 창의성을 제대로 평가하기 위해서는 관습에서 벗어난 결과물을 오류로 간주하지 않는 새로운 평가 도구가 필요하다.
이 논문은 다양한 언어, 장르 및 번역 양식(modalities)에 걸친 문학 번역에 대한 자동 평가 지표(AEMs)와 LLM-as-a-judge 평가의 성능을 조사합니다. 연구의 목적은 번역, 창의성(창의적 전환 및 오류)을 평가할 때 이러한 도구들이 전문가들과 얼마나 잘 일치하는지 평가하고, 노동 집약적인 수동 주석(manual annotations)을 대체할 수 있는지 확인하는 것입니다. 세 가지 양식(인간 번역, 기계 번역, 사후 편집), 세 가지 장르 및 세 가지 언어 쌍에 걸친 문학 번역 데이터셋이 구축되었으며, 숙련된 전문 문학 번역가들에 의해 창의성에 대해 상세히 주석이 달렸습니다. 결과에 따르면, AEMs와 LLM-as-a-judge 평가 모두 창의성에 대한 전문가 평가와 상관관계가 낮게 나타났으며, 특히 LLM-as-a-judge는 기계 번역된 텍스트에 유리하게 작용하고 창의적이며 문화적으로 적절한 해결책을 패널티를 주는 체계적인 편향(systematic bias)을 보였습니다. 또한, 시(poetry)와 같이 더 문학적인 장르일수록 성능이 일관되게 낮게 나타났습니다. 이는 문학 번역을 위한 현재의 자동 평가 도구들이 가진 근본적인 한계를 강조하며, 관습에서 벗어난 번역을 빈번하게 오류로 간주하지 않는 새로운 도구를 개발할 필요성을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기