같은 질문, 다른 역사: 거대 언어 모델(LLM)에서의 언어, 국가 정체성, 그리고 공로
요약
LLM이 언어에 따라 역사적 사실과 국가적 정체성을 어떻게 다르게 표현하는지 분석한 연구입니다. 질문 언어가 특정 국가의 관점을 활성화하여 모델이 문화적 기억의 분산된 시스템으로 기능함을 보여줍니다.
핵심 포인트
- 질문 언어에 따라 LLM의 역사적 인물 답변이 체계적으로 달라짐
- 특정 언어 사용 시 해당 국가와 관련된 인물이 더 자주 언급됨
- 영어권 인물은 언어와 관계없이 안정적으로 유지되는 경향
- LLM이 계산적 형태의 '평범한 민족주의'를 생성할 수 있음을 시사
라디오를 발명한 사람은 러시아의 Alexander Popov일까요, 아니면 이탈리아의 Guglielmo Marconi일까요? 전화기는 미국의 Bell의 업적일까요, 아니면 이탈리아의 Meucci의 업적일까요? 인쇄술은 중국의 Bi Sheng의 것일까요, 아니면 독일의 Gutenberg의 것일까요? 그 답은 역사적 기록뿐만 아니라 언어와 관점에 따라 달라집니다. 우리는 21개의 논쟁적인 발명 및 발견에 대해 12개 언어와 75,896개의 응답으로 평가된 11개의 널리 사용되는 거대 언어 모델 (Large Language Models, LLMs)을 분석합니다. 모델들은 일반적으로 공로가 논쟁 중임을 인정하지만, 질문 언어는 어떤 주장자가 표면화되는지에 체계적으로 영향을 미칩니다. 질문이 해당 주장자의 연관 언어로 이루어질 때 낮은 지위의 주장자가 나타날 가능성이 더 높은 반면, 지배적인 영어권 인물들은 언어에 관계없이 안정적으로 유지됩니다. 이러한 패턴은 응답 길이, 모델 간 차이, 역사적 유명세, 그리고 국가적 기념 수준을 통제한 후에도 지속됩니다. 따라서 언어는 동일한 역사의 서로 다른 국가적 버전을 활성화하는 스위치 역할을 하며, 동일한 질문으로부터 체계적으로 다른 국가적 기억을 생성합니다. 우리는 이를 거대 언어 모델이 문화적 기억의 분산된 시스템으로서 기능한다는 증거로 해석하며, 여기서 언어는 어떤 역사가 가시화될지를 결정함으로써 계산적 형태의 평범한 민족주의 (banal nationalism)에 기여합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기