본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 29. 21:20

LLM 기반 추천 시스템의 언어적 편향에 대한 조사

요약

본 연구는 Yelp 및 Walmart 데이터셋을 활용하여 LLM 기반의 레스토랑 및 제품 추천 시스템에서 나타나는 언어적 편향을 조사했습니다. 남부 미국 영어(AE), 인도 영어(IE), 그리고 코드 스위칭 힌디어-영어 방언 프롬프트를 사용하여 모델들이 각 방언에 따라 다르게 반응하는지 분석했습니다. 그 결과, 테스트된 모든 모델에서 사용된 방언이 추천되는 레스토랑 유형에 영향을 미치며, 특히 mistral-small-3.1과 llama-3.1 계열 모델은 인도 영어 및 코드 스위칭 프롬프트에 더 민감하게 반응하는 경향을 보였습니다.

핵심 포인트

  • LLM 기반 추천 시스템의 성능이 입력된 언어 방언(AE, IE, Code-Switching)에 따라 달라지는 '언어적 편향'이 존재함을 확인했습니다.
  • Mistral-small-3.1 및 Llama-3.1 계열 모델은 인도 영어와 코드 스위칭 프롬프트의 영향을 더 크게 받는 것으로 나타났습니다.
  • 제품 추천 측면에서, 대형 모델(Llama-3.1-70B)은 뷰티 및 홈 카테고리 등 특정 분야에서 코드 스위칭 프롬프트에 민감하게 반응하는 경향을 보였습니다.
  • 추천의 편향성은 단순히 모델 크기보다는 입력된 방언 유형에 조건부적으로 의존합니다.

우리는 Yelp Open 데이터셋 (Yelp Inc., 2023) 과 Walmart 제품 리뷰 데이터셋 (PromptCloud, 2020) 을 사용하여, 남부 미국 영어 (AE), 인도 영어 (IE), 그리고 코드 스위칭 힌디어-영어 방언에 따라 변화하는 프롬프트를 주어 LLM 기반의 레스토랑 및 제품 추천에서 나타나는 언어적 편향을 조사합니다. 우리는 LLM 에 제시하는 프롬프트에 요리 유형과 제품 카테고리에 의해 균형 잡힌 레스토랑 및 제품 이름 목록을 추가하고, cold-start 설정에서 zero-shot 프롬프트를 통해 각 방언별 프롬프트마다 해당 목록에서 상위 20 개의 레스토랑 및 제품 추천을 선택하도록 LLM 을 지시합니다. 더 나은 일반화를 위해 20 개의 시드 (seed) 에 걸쳐 다른 목록 샘플을 사용하여 LLM 을 프롬프트링하고, 각 시드, 질문/프롬프트, 그리고 LLM 모델별로 요리 유형과 카테고리별 응답 횟수를 집계합니다. 우리는 각 모델 계열과 주제 (레스토랑/제품) 에 대해 집계된 응답 횟수를 종속 변수로 하는 혼합 효과 회귀 모델을 실행하며, 고정 효과를 위한 우도 비율 검정 (likelihood ratio tests) 과 추정된 평균 편차의 사후 쌍별 검정 (post-hoc pairwise testing of estimated marginal means differences) 을 수행하여 모델 크기와 방언 유형에 따른 추천 횟수의 그룹 수준 차이를 조사합니다. 결과는 테스트된 모든 모델에서 방언이 선택된 레스토랑의 유형에 영향을 미친다는 것을 보여주며, mistral-small-3.1 모델과 테스트된 llama-3.1 계열 모델 모두 인도 영어 및 코드 스위칭 프롬프트에 더 민감하다는 점을 나타냅니다. 제품 추천 측면에서는 llama-3.1-70B 모델이 7 개 카테고리 중 4 개에서 코드 스위칭 프롬프트에 특히 민감하며, 대형 모델과 소형 모델을 사용할 때 각각 인도 영어 및 코드 스위칭 프롬프트를 사용하여 뷰티 (beauty) 와 홈 (home) 카테고리 추천이 더 많이 관측됩니다. 모델 크기 기반 차이에 대한 광범위한 경향은 관찰되지 않았으며, 추천은 방언 유형에 따라 조건부인 모델 크기에 따라 달라집니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0