arXiv논문2026. 06. 30. 12:32

완전한 인간은 아닌 취향: LLM 설문 대리인의 정형화된 잡식성

요약

LLM이 대중의 문화적 취향을 모사할 때 발생하는 편향과 한계를 분석한 연구입니다. OpenAI, Anthropic, DeepSeek 모델을 활용해 생성된 '실리콘 대리인'이 인간의 실제 취향 구조를 정형화된 방식으로 왜곡함을 증명했습니다.

핵심 포인트

LLM 기반 합성 데이터는 선호도에 대해 체계적인 긍정적 편향을 보임
실제 취향 구조에 존재하는 복잡한 관계성이 실리콘 샘플에서 상실됨
연령, 성별, 인종 등 사회적 맥락과 취향 간의 정렬이 제대로 보존되지 않음
시장 조사에서 LLM을 대리인으로 사용할 때 데이터 오염 위험 존재

대규모 언어 모델(Large-language models, LLM)은 대중의 태도와 의견을 놀랍도록, 그러나 일관성 없게 흉내 내는 앵무새임이 증명되었습니다. LLM이 문화적 취향에 대해 얼마나 합리적인 근사치를 생성할 수 있는지는 여전히 미해결된 경험적 질문으로 남아 있으며, 시장 조사 기업들이 이미 임시적인 '합성(synthetic)' 설문 패널을 제공하고 LLM이 생성한 응답으로 인해 표준 설문 데이터가 오염됨에 따라 이 문제는 날로 시급해지고 있습니다. 본 연구에서는 실리콘 샘플링(silicon sampling)에 관한 기존 연구를 바탕으로, 알고리즘적 충실도(algorithmic fidelity)와 정렬(alignment)에 대한 고려 사항을 문화적 소비 영역으로 확장합니다. 우리는 OpenAI, Anthropic, DeepSeek의 대규모 언어 모델을 사용하여 예술 참여에 관한 대중 설문 조사(Survey of Public Participation in the Arts, SPPA)의 설문 응답자를 대신하는 277,470개(30x9249)의 실리콘 대리인(silicon surrogates)을 각각 생성했습니다. 우리는 이러한 실리콘 대리인들의 취향이 인간의 취향을 매우 정형화된 방식으로 모사하고 있음을 발견했습니다. (1) 실리콘 샘플은 선호(liking)에 대해 체계적인 긍정적 편향(positive-bias)을 보이며, 이는 취향에 대한 생태학적 추정치를 부풀리는 결과를 초래합니다. 실리콘 샘플의 개인 수준 편향은 문헌에서 자주 논의되는 WEIRD 편향(WEIRD-bias)으로는 잘 설명되지 않습니다. (2) 실제 취향 구조에 존재하는 복잡한 관계성(relationality)은 실리콘 샘플 사이에서 완전히 상실됩니다. (3) 마지막으로, 취향과 사회적 공간 사이의 알려진 문화적 정렬(cultural alignment) 중 보존되는 것이 거의 없습니다. 실리콘 샘플은 연령-취향 연관성을 약화시키고, 시대착오적인 계층-취향 연관성을 부활시키며, 성별 및 인종-취향 연관성을 희화화(caricaturize)합니다.

AI 자동 생성 콘텐츠

원문 바로가기

완전한 인간은 아닌 취향: LLM 설문 대리인의 정형화된 잡식성

요약

핵심 포인트

댓글