arXiv논문2026. 06. 09. 10:43

친구인가 적인가? 러시아의 허위 정보 스트레스 상황에서 오픈 웨이트(open-weight) LLM의 이데올로기적 전환 기제로서의 언어

요약

본 논문은 언어별 미세 조정이 모델의 정치적 성향을 결정한다는 가정을 반증합니다. 실험 결과, 특정 언어 커뮤니티를 위해 조정된 모델이라도 질문 언어와 코퍼스 구성에 따라 허위 정보에 대한 저항력이 달라지는 '미세 조정의 역설'을 발견했습니다.

핵심 포인트

미세 조정이 모델의 정치적 성향을 항상 보장하지 않음
질문 언어와 코퍼스 구성이 문화적 정렬보다 더 결정적임
우크라이나 지향 모델이 러시아어로 질문 시 허위 정보에 취약함
디지털 주권 관점에서 문화적 정렬 가정의 위험성 경고

러시아의 우크라이나 전쟁이 생성형 AI(generative AI) 영역으로 확장됨에 따라, 현지의 포스트 소비에트(post-Soviet) 언어에 맞춰 조정된 거대 언어 모델(LLMs)이 분쟁 중인 정보 환경에 배치되고 있습니다. 정책 및 산업계의 담론은 문화적으로 정렬된 조정(adaptation)이 대상 커뮤니티의 정치적 성향을 인코딩한다고 가정합니다. 즉, 우크라이나 지향적 모델은 러시아의 서사에 저항할 것이고, 러시아 지향적 모델은 이를 강화할 것이라는 가정입니다. 과연 그럴까요? 본 논문은 이러한 가정을 체계적으로 반증합니다. 우리는 동일한 베이스 모델을 공유하지만 서로 다른 언어 커뮤니티를 위해 미세 조정(fine-tuning)된 4개의 공개 가능한 LLM을 대상으로 통제된 감사(audit)를 수행했습니다. 크림반도, "탈나치화("denazification")", "한 민족" 논제, 그리고 부차(Bucha)와 마리우폴(Mariupol)에서의 참상 부정 등 10가지의 논쟁적인 전시 서사에 대해 우크라이나어, 러시아어, 영어로 질의를 던졌습니다. 결과는 '미세 조정의 역설(Fine-Tuning Paradox)'로 나타났습니다. 우크라이나 지향적 모델은 러시아어로 질문했을 때 러시아의 허위 정보에 대해 가장 약한 저항력을 보인 반면, 러시아 지향적 모델은 가장 강력한 거부 반응을 보였습니다. 코퍼스(Corpus) 구성, 언어 범위 및 프롬프트(prompt) 형식이 명목상의 문화적 기원보다 더 결정적인 요인임이 증명되었습니다. 우리는 이러한 발견을 하이브리드 전쟁(hybrid warfare), 디지털 주권(digital sovereignty), 포스트 제국주의 정보 질서에 관한 논쟁 속에 위치시키며, 지역 정보 주권에 대한 주요 위협은 적대적인 미세 조정이 아니라, 문화적 정렬이 회복탄력성(resilience)을 보장한다는 검증되지 않은 가정이라고 주장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

친구인가 적인가? 러시아의 허위 정보 스트레스 상황에서 오픈 웨이트(open-weight) LLM의 이데올로기적 전환 기제로서의 언어

요약

핵심 포인트

댓글