Polar: LLM의 정치적 편향성을 평가하기 위한 벤치마크
요약
LLM의 정치적 편향성을 측정하기 위한 새로운 다지선다형 벤치마크인 Polar를 소개합니다. 미국과 한국의 정치적 맥락을 반영하여 38개 모델을 평가한 결과, 언어와 이슈에 따라 편향성이 체계적으로 변화함을 확인했습니다.
핵심 포인트
- 프롬프트 생성 대신 선택지 수준의 가능도를 활용한 측정 방식 도입
- 미국 정치 콘텐츠에 대해 모델들이 좌파 진보적 성향을 보임
- 한국 정치 맥락에서는 상대적으로 중립적이고 혼합된 패턴 관찰
- 제시 언어(presentation language)에 따라 편향성 측정값이 달라짐
대규모 언어 모델 (LLMs)의 정치적 편향성 (Political bias)은 점점 더 중요해지고 있지만, 정치적 및 언어적 맥락에 따라 재현 가능하게 측정하기는 어렵습니다. 우리는 프롬프트 기반 생성 (prompt-based generation) 대신 선택지 수준의 가능도 (option-level likelihoods)를 통해 정치적 편향성을 측정하는 4,026개의 인스턴스로 구성된 다지선다형 벤치마크인 Polar를 소개합니다. Polar는 Manifesto Project에서 도출된 두 개의 이데올로기 축과 8개의 이슈 카테고리를 다루며, 미국과 한국의 정치적 맥락에서 모델들을 병렬적으로 평가합니다. 38개의 LLM을 대상으로 조사한 결과, 측정된 편향성은 정치적 맥락, 이슈 카테고리, 모델 그룹 및 제시 언어에 따라 체계적으로 변화함을 확인했습니다. 모든 모델은 미국 정치 콘텐츠에 대해서는 좌파 진보적 (left-progressive) 성향을 보였으나, 한국 콘텐츠에 대해서는 더 중립적이고 혼합된 패턴을 보였습니다. 번역 실험을 통해 제시 언어(presentation language)만으로도 측정된 편향성이 달라질 수 있음을 추가로 보여주었습니다. 이러한 발견은 LLM의 정치적 편향성에 대한 다국어 및 교차 맥락적 평가의 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기