도덕적 의미론은 기계 번역에서도 유지되는가: 도덕적 토대 코퍼스를 통한 교차 언어적 증거

도덕적 언어는 미묘하고 문화적으로 가변적이어서, 언어 간에 충실하게 번역하기가 어렵습니다. 관용구, 속어, 문화적 참조는 피하기 어려운 번역 아티팩트(translation artifacts)를 유발합니다. 그러나 자동화된 도덕적 가치 분류는 거의 전적으로 영어로만 존재하는 언어 특화된 주석 코퍼스(annotated corpora)에 의존합니다. 우리는 폴란드어를 테스트 케이스로 삼아, LLM 기반 번역이 이러한 격차를 메울 수 있는지 조사합니다. 다양한 주제를 다루는 약 5만 개의 도덕적 주석이 달린 소셜 미디어 게시물을 사용하여, 우리는 원칙적인 4단계 검증 파이프라인을 적용합니다: LaBSE 교차 언어 임베딩 유사도(cross-lingual embedding similarity), 중심 커널 정렬(Centered Kernel Alignment, CKA), LLM-as-judge 평가, 그리고 딥러닝 분류기 패리티 테스트(deep learning classifier parity tests). 우리는 속어, 비속어, 문화적 함의가 담긴 표현을 처리하는 데 있어 결점이 있음에도 불구하고, 직접 번역이 교차 언어 머신러닝(cross-lingual machine learning)에 의해 수확될 수 있을 만큼 미묘한 도덕적 단서들을 충분히 잘 보존한다는 것을 보여줍니다. 이는 평균 코사인 유사도 0.86을 기록하였으며, 모든 토대(foundations)에 걸친 AUC 격차는 0.01~0.02로 나타났고, 언어 모델의 미세 조정(fine-tuning)을 통해 이 격차는 더욱 좁혀졌습니다. 이러한 결과는 기계 번역이 현재 이 분야에서 자원이 부족한 언어들의 도덕적 가치 연구를 위한 실용적이고 비용 효율적인 경로임을 입증합니다. 우리는 대표적인 슬라브어인 폴란드어를 통해 이를 증명하며, 이는 관련 언어들로 일반화될 수 있을 것으로 기대됩니다.

Insights

도덕적 의미론은 기계 번역에서도 유지되는가: 도덕적 토대 코퍼스를 통한 교차 언어적 증거

요약

핵심 포인트

댓글

더 많은 프롬프트가 필요한 것이 아니라, 당신의 누수(Leaks)를 찾아야 합니다

AMD, Helios 본격 생산 돌입에 따라 2030년까지 컴퓨팅 시장 2조 달러 규모 도달 전망

AMD와의 파트너십 소식에 Cerebras 주가 상승

기관 자본의 귀환: 비트코인 (Bitcoin) ETF, 6일 연속 9억 달러 유입

AMD, Helios 본격 생산 돌입에 따라 2030년까지 컴퓨팅 시장 2조 달러 규모 도달 전망

AMD와의 파트너십 소식에 Cerebras 주가 상승

기관 자본의 귀환: 비트코인 (Bitcoin) ETF, 6일 연속 9억 달러 유입