데이터가 아니라 인간이다: LLM의 지정학적 편향은 사후 학습(post-training)에서 발생하며 프롬프트 언어에 의해 증폭된다
요약
LLM의 지정학적 편향이 사전 학습 데이터가 아닌 사후 학습(post-training) 과정에서 발생한다는 연구 결과입니다. 연구에 따르면 사후 학습 후 모델은 개발자의 국가나 지역적 관점으로 편향되며, 프롬프트 언어에 따라 이러한 편향이 증폭될 수 있습니다.
핵심 포인트
- 지정학적 편향은 사전 학습보다 사후 학습 단계에서 주로 형성됨
- 사후 학습 후 모델은 개발자의 국가/지역적 관점으로 편향되는 경향을 보임
- 프롬프트 언어(예: 프랑스어)에 따라 특정 국가에 대한 편향이 증폭됨
- 정렬(alignment) 프로세스에 대한 투명성과 감사 및 감독의 필요성 강조
언어 모델(language models)의 지정학적 편향(geopolitical bias)은 사전 학습(pre-training) 단계에서 사용된 학습 데이터에서 기인한다고 일반적으로 가정되어 왔습니다. 우리는 7개 연구소의 베이스 모델(pre-training만 수행)과 채팅 모델(pre-training 및 post-training 수행)로 구성된 7쌍의 오픈 웨이트(open-weight) LLM 쌍을 대상으로, 영어, 프랑스어, 중국어로 진행된 28개 국가 쌍에 대한 쌍체 시나리오 강제 선택 조사(paired-scenario forced-choice probe)를 실시했습니다. 그 결과, 지정학적 편향은 사전 학습(pre-training)이 아닌 사후 학습(post-training)에서 발생한다는 것을 발견했습니다. 7개의 AI 연구소 중 6곳에서 사후 학습 이후 모델 개발자의 국가 또는 지역과 관련된 방향으로의 편향 변화가 나타났습니다. 이러한 변화는 Alibaba의 Qwen 2.5에서 가장 강력하게 나타났습니다. 베이스 모델은 중국 선호도에 대해 중립적(-0.15 log-odds, p=0.15)이었으나, 사후 학습된 채팅 변체는 +2.91(p<10^-4)로, 오즈(odds)가 18배 변화했습니다. 우리는 또한 모든 모델에서 다른 국가를 향한 편향의 변화도 관찰했습니다. 추가적으로, 이러한 변화의 크기는 모델에 사용된 프롬프트(prompt) 언어에 따라 달라집니다. 프랑스에서 제작된 Mistral은 프랑스어 프롬프트 하에서만 친프랑스 성향을 보였습니다 (FR-EN shift +1.91, p<10^-4). 이러한 연구 결과는 언어 모델의 지정학적 선호도가 단순히 대규모 인터넷 데이터로부터 상속되는 것이 아니라, 사후 학습(post-training) 과정에서 능동적으로 형성된다는 것을 시사하며, 모델이 국가, 문화 및 정치적 관점을 표현하는 방식에 영향을 미치는 정렬(alignment) 프로세스에 대한 더 큰 투명성, 감사 및 감독의 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기