LLM 기반 추천 시스템의 언어적 편향에 대한 조사

우리는 Yelp Open 데이터셋 (Yelp Inc., 2023) 과 Walmart 제품 리뷰 데이터셋 (PromptCloud, 2020) 을 사용하여, 남부 미국 영어 (AE), 인도 영어 (IE), 그리고 코드 스위칭 힌디어-영어 방언에 따라 변화하는 프롬프트를 주어 LLM 기반의 레스토랑 및 제품 추천에서 나타나는 언어적 편향을 조사합니다. 우리는 LLM 에 제시하는 프롬프트에 요리 유형과 제품 카테고리에 의해 균형 잡힌 레스토랑 및 제품 이름 목록을 추가하고, cold-start 설정에서 zero-shot 프롬프트를 통해 각 방언별 프롬프트마다 해당 목록에서 상위 20 개의 레스토랑 및 제품 추천을 선택하도록 LLM 을 지시합니다. 더 나은 일반화를 위해 20 개의 시드 (seed) 에 걸쳐 다른 목록 샘플을 사용하여 LLM 을 프롬프트링하고, 각 시드, 질문/프롬프트, 그리고 LLM 모델별로 요리 유형과 카테고리별 응답 횟수를 집계합니다. 우리는 각 모델 계열과 주제 (레스토랑/제품) 에 대해 집계된 응답 횟수를 종속 변수로 하는 혼합 효과 회귀 모델을 실행하며, 고정 효과를 위한 우도 비율 검정 (likelihood ratio tests) 과 추정된 평균 편차의 사후 쌍별 검정 (post-hoc pairwise testing of estimated marginal means differences) 을 수행하여 모델 크기와 방언 유형에 따른 추천 횟수의 그룹 수준 차이를 조사합니다. 결과는 테스트된 모든 모델에서 방언이 선택된 레스토랑의 유형에 영향을 미친다는 것을 보여주며, mistral-small-3.1 모델과 테스트된 llama-3.1 계열 모델 모두 인도 영어 및 코드 스위칭 프롬프트에 더 민감하다는 점을 나타냅니다. 제품 추천 측면에서는 llama-3.1-70B 모델이 7 개 카테고리 중 4 개에서 코드 스위칭 프롬프트에 특히 민감하며, 대형 모델과 소형 모델을 사용할 때 각각 인도 영어 및 코드 스위칭 프롬프트를 사용하여 뷰티 (beauty) 와 홈 (home) 카테고리 추천이 더 많이 관측됩니다. 모델 크기 기반 차이에 대한 광범위한 경향은 관찰되지 않았으며, 추천은 방언 유형에 따라 조건부인 모델 크기에 따라 달라집니다.

Insights

LLM 기반 추천 시스템의 언어적 편향에 대한 조사

요약

핵심 포인트

댓글

Lip-Bu Tan 체제 하의 Intel 파운드리, 첫 외부 고객사 확보. 실적 발표 2일 전 주가 8% 이상 급등

Claude가 이제 어떤 웹사이트의 인터페이스도 직접 복제할 수 있습니다

AI를 상당히 사용하고 있음에도 AI 활용 설문에서는 낮은 점수였다──제2세대 AI 인재라는 생각

AI를 활용한 3D 게임 제작의 어려움을 해결해 주는 threejs-game-skills

Lip-Bu Tan 체제 하의 Intel 파운드리, 첫 외부 고객사 확보. 실적 발표 2일 전 주가 8% 이상 급등

Claude가 이제 어떤 웹사이트의 인터페이스도 직접 복제할 수 있습니다

AI를 상당히 사용하고 있음에도 AI 활용 설문에서는 낮은 점수였다──제2세대 AI 인재라는 생각

AI를 활용한 3D 게임 제작의 어려움을 해결해 주는 threejs-game-skills