P3B3: LLM의 유럽 및 브라질 포르투갈어 변체 편향을 측정하기 위한 다회차 대화형 벤치마크
요약
LLM이 유럽 포르투갈어와 브라질 포르투갈어 사이에서 보이는 언어적 편향을 측정하기 위한 새로운 벤치마크 P3B3를 소개합니다. 실험 결과 대부분의 모델이 브라질 포르투갈어에 편향되어 있음을 확인하였으며, 언어 변체 간의 균형 잡힌 표현의 필요성을 강조합니다.
핵심 포인트
- 포르투갈어 변체(pt-PT vs pt-BR) 간의 LLM 편향 측정
- 전문가 큐레이션 기반의 대화형 프롬프트 벤치마크 P3B3 제안
- 대부분의 LLM이 브라질 포르투갈어(pt-BR)에 강한 편향을 보임
- 모델별 언어 변체 제어 가능성(controllability) 차이 확인
대규모 언어 모델 (LLMs)이 일상적인 의사소통에 내장됨에 따라, 신뢰할 수 있고 공평한 언어 사용을 위해서는 지역적 언어 변이를 포착하는 것이 필수적입니다. 포르투갈어의 경우, 유럽 포르투갈어 (pt-PT)와 브라질 포르투갈어 (pt-BR) 변체가 여전히 불균형하게 표현되어 있으며, 데이터 양 측면에서는 pt-BR이 지배적이지만, 포르투갈어 변체에 대한 LLM의 선호도는 아직 충분히 연구되지 않았습니다. 이러한 격차를 해소하기 위해, 우리는 전문가가 큐레이션한 언어 변체 불가지론적 (language variety agnostic) 대화형 프롬프트 벤치마크인 P3B3와 변체 편향 및 제어 가능성 (controllability)을 측정하기 위한 평가 프레임워크를 소개합니다. 여러 모델에 대한 실험 결과, 대부분의 LLM은 pt-BR에 대한 강한 편향을 보였으며, 모델에 따라 제어 가능성의 차이가 나타났습니다. 이러한 결과는 언어 변체 전반에 걸쳐 더욱 균형 잡힌 다국어 표현이 필요함을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기