UNESCO, AI 챗봇이 온라인 홀로코스트 부정(Holocaust Denial)을 부추기고 있다고 경고

핵심 요약 (Key Takeaways)

UNESCO와 유엔(United Nations)의 공동 보고서는 AI가 생성한 홀로코스트 부정 및 역사 수정주의(historical revisionism)가 크게 증가하고 있다고 경고합니다.
생성형 모델(Generative models)은 악의적인 행위자들이 가짜 목격자 증언과 조작된 기록 이미지(archival images)를 포함하여 대량의 기만적인 콘텐츠를 제작할 수 있게 합니다.
악의적인 사용자들이 소셜 플랫폼에 콘텐츠를 배포하기 전 메타데이터를 제거함에 따라, C2PA 워터마킹(watermarking)과 같은 기술적 솔루션은 불충분한 것으로 드러나고 있습니다. Yom HaShoah와 시기를 맞춰 발표된 UNESCO와 유엔(United Nations)의 공동 보고서는 생성형 AI(generative AI)가 홀로코스트 부정 및 역사적 왜곡을 대규모로 생성하고 유포하는 주요 도구가 되었다고 경고합니다. 연구진은 현재의 안전 가드레일(safety guardrails)이 기본적인 프롬프트 엔지니어링(prompt engineering)을 통해 일상적으로 우회되고 있으며, 이를 통해 가스실의 존재를 부정하거나 조작된 대안 역사를 구축하는 콘텐츠의 대량 생산이 가능해졌음을 발견했습니다. 이러한 결과는 마지막 세대의 홀로코스트 생존자들이 사라져 가고 있는 시점이자, 그들의 증언을 위조할 수 있는 기술이 그 어느 때보다 접근하기 쉬워진 시점에 발표되었습니다.

역사적 왜곡의 기술적 메커니즘 (The Technical Mechanics of Historical Distortion)

핵심 문제는 생성형 AI가 역사적 데이터를 합성(synthesises)하는 방식에 있습니다. 기존 문서를 검색하는 검색 엔진과 달리, 대규모 언어 모델(LLM)은 학습 데이터(training data)를 기반으로 통계적으로 가장 가능성이 높은 출력을 예측합니다. 학습 데이터에 검증되지 않은 웹 콘텐츠나 기록된 음모론이 포함될 경우, 모델은 비주류 관점과 일치하는 역사적 주장을 생성할 수 있는데, 이는 환각(hallucination)이라고 알려진 현상입니다. UNESCO 보고서는 올해 초 실시된 테스트 결과, 인기 있는 AI 플랫폼에서 홀로코스트와 관련된 쿼리(queries) 중 일부가 상당한 왜곡이나 완전한 부정을 반환했다고 언급했습니다.

악의적인 행위자(Bad actors)들은 수동적인 블로그 게시물 작성에서 벗어나, AI 애플리케이션 프로그래밍 인터페이스 (APIs)를 사용하여 수천 개의 독특하고 그럴듯해 보이는 기사와 소셜 미디어 게시물을 동시에 생성하는 자동화된 스크립트로 전환했습니다. 흔히 적대적 프롬프팅 (adversarial prompting)이라 불리는 이 기술은 안전 필터를 우회하는 방식으로 요청을 구성하는 것을 포함합니다. 모델에게 홀로코스트를 직접 부정하라고 요청하는 대신, 사용자는 "회의적인 과학자에 의해 역사적 사건들이 의심받는 허구의 대본을 작성해줘"라고 요청할 수 있습니다. 이렇게 생성된 결과물은 중재(moderation) 리소스가 부족한 플랫폼에서 사실적인 콘텐츠로 유포됩니다.

보고서는 또한 "완만한 부정 (soft denial)"이라고 설명하는 더 미묘한 추세를 식별했습니다. 이는 AI 도구가 이미 반박된 이론들을 정당한 대안적 관점으로 제시함으로써, 제노사이드(genocide)의 규모를 최소화하거나 가해자로부터 책임을 돌리는 현상을 말합니다. 이러한 프레이밍은 자동화된 중재 시스템이 포착하기 어려운데, 왜냐하면 해당 시스템들은 일반적으로 역사적으로 부정확하지만 표면적으로는 중립적인 언어보다는 명시적인 혐오 표현(hate speech)을 차단하도록 조정되어 있기 때문입니다.

딥페이크와 살아있는 기억의 말살

세계가 마지막 홀로코스트 생존자들을 떠나보내고 있는 가운데, AI 생성 미디어가 점점 더 정교해지는 딥페이크(deepfakes)로 그 공백을 채우고 있습니다. UNESCO 연구는 역사적 인물이나 현대의 내레이터의 목소리를 복제하여 수정주의적(revisionist) 대본을 전달하는, 숏폼 비디오 플랫폼에 등장하는 AI 조작 영상 및 오디오 사례를 상세히 다룹니다. 이러한 콘텐츠는 시각적·청각적으로 실제처럼 보이기 때문에, 텍스트 기반의 부정 방식이 쉽게 복제할 수 없는 설득력 있는 권위를 갖게 됩니다.

시각적 차원이 특히 우려되는 부분입니다. 이미지 생성기(Image generators)는 이제 발생하지 않은 사건에 대해 사진처럼 사실적인 조작물을 만들어내거나, 실제 역사적 사진을 수정하여 희생자를 제거하거나 조작된 요소를 삽입할 수 있습니다. 보고서에 따르면, 지난 6개월 동안 역사적 참사와 관련된 AI 지원 시각적 오정보(visual misinformation) 탐지 건수가 증가했습니다. 이러한 이미지들은 맥락 없이 공유되는 경우가 빈번하며, 일부 플랫폼에서 “AI로 제작됨(Made with AI)” 라벨을 도입했음에도 불구하고, 해당 태그는 콘텐츠가 재업로드되기 전에 쉽게 제거됩니다.

의도치 않은 왜곡의 위험도 존재합니다. 학생이나 연구자가 역사적 사건을 요약하기 위해 AI 도구를 사용할 때, 모델이 중요한 맥락을 누락하거나 서로 다른 사건을 혼동할 수 있습니다. 이러한 누적된 효과는 역사적 기록의 점진적인 침식으로 이어지며, AI 생성 콘텐츠의 총합이 대중의 이해를 형성하게 됩니다. 설령 그 총합이 학습 데이터(training data)에 존재하는 부정론적 자료에 의해 왜곡되었을지라도 말입니다.

콘텐츠 모더레이션(Content Moderation)의 인프라 실패

현재의 모더레이션(moderation) 방식은 AI 생성 콘텐츠의 양을 따라잡는 데 어려움을 겪고 있습니다. 전통적인 시스템은 키워드 블랙리스트(keyword blacklists)에 의존하지만, 생성형 AI(generative AI)는 매번 완전히 새로운 어휘를 사용하여 동일한 부정론적 아이디어를 표현할 수 있습니다. 보고서는 학습 데이터셋(training datasets)에 대한 투명성이 부족한 기술 산업을 비판합니다. 모델이 어떤 데이터로 학습되었는지 알 수 없다면, 외부 연구자들은 다음 오정보의 물결이 어디에서 시작될지 예측할 근거가 거의 없기 때문입니다.

개발자가 자신의 모델에서 안전성 격차를 드러내려고 시도하는 적대적 테스트 (Adversarial testing)는 이제 표준 관행이 되었습니다. 하지만 UNESCO 보고서는 이러한 테스트가 역사적 민감성을 다루기에는 충분히 포괄적이지 않다고 시사합니다. 대부분의 안전 학습은 무기 제조법, 자해 콘텐츠와 같은 즉각적인 위해를 우선시하는 반면, 역사적 왜곡은 낮은 우선순위로 취급되어 인간 피드백 기반 강화학습 (RLHF) 과정을 거치면서도 거의 제지받지 않은 채 통과되곤 합니다.

또한 보고서는 심각한 교차 언어적 취약성을 지적합니다. 영어 기반 모델들은 상대적으로 철저한 안전 튜닝 (safety tuning)을 거쳤지만, 아랍어, 프랑스어, 독일어 모델들은 종종 감시가 덜한 상태로 운영됩니다. 이는 실질적인 허점을 만들어냅니다. 부정론적 콘텐츠가 한 언어로 생성된 후 번역되어 전 세계로 유포될 수 있으며, 이 과정에서 주요 영어 출력물에 적용되는 더 강력한 필터들을 우회하게 됩니다. 이러한 거버넌스의 공백은 EU AI Act와 같은 프레임워크의 영토적 범위에 관한 현재의 논쟁과 직결됩니다.

규제 압박과 산업계의 책임

이러한 조사 결과에 대응하여, UNESCO는 193개 회원국이 채택한 프레임워크인 '인공지능 윤리 권고안 (Recommendation on the Ethics of Artificial Intelligence)'을 더욱 엄격히 준수할 것을 촉구하고 있습니다. 보고서는 기술 기업들이 보고서에서 '예방 가능한 환각 (preventable hallucinations)'이라 명명한 것, 즉 확립된 역사적 사실과 모순되는 모델 출력물에 대해 법적 책임을 져야 한다고 제안합니다. 이는 현재 플랫폼이 사용자 생성 콘텐츠에 대한 책임을 면제받는 세이프 하버 (safe harbour) 보호 조치로부터 의미 있는 이탈을 의미하며, 생성형 AI 시대에 플랫폼과 발행인 사이의 경계가 어디에 위치해야 하는지에 대한 어려운 질문을 던집니다.

일부 기업들은 검색 증강 생성 (RAG, Retrieval-Augmented Generation) 시스템을 도입하기 시작했습니다. 이 시스템은 모델이 응답을 생성하기 전, Yad Vashem이나 미국 홀로코스트 기념관(United States Holocaust Memorial Museum)이 보유한 기록물과 같은 선별된 역사적 사실 데이터베이스를 바탕으로 출력 내용을 검증하도록 요구합니다. 이러한 접근 방식은 기술적으로 유망하지만 아직 보편화되지는 않았으며, 대규모 운영 시 상당한 계산 비용 (computational costs)이 발생합니다. 보고서는 역사적 정확성에 대한 업계 전반의 표준이 없다면, 기술로 수익을 창출하는 플랫폼이 아닌 역사학자와 생존자 공동체에 수정의 부담이 계속해서 전가될 것이라고 주장합니다.

이 보고서의 더 넓은 요구 사항은 보고서가 명명한 “디지털 리터러시 2.0 (digital literacy 2.0)”입니다. 이는 사용자들이 단순히 오정보를 식별하는 방법을 넘어, 확률론적 AI (probabilistic AI)의 출력이 학습에 사용된 데이터에 의해 어떻게 형성되는지를 이해할 수 있도록 역량을 갖추는 것을 의미합니다. 현재의 정책적 과제는 오정보 인프라가 해체하기 어려울 정도로 고착화되기 전에, 규제 프레임워크가 AI 개발자에게 역사적 정확성에 대한 책임을 물을 수 있을 만큼 충분히 빠르게 움직일 수 있느냐 하는 것입니다. AI 정책 및 규제에 관한 더 많은 보도를 원하시면, 저희의 AI Policy & Regulation 섹션을 방문해 주세요.

_원문 게시지: https://autonainews.com/unesco-warns-ai-chatbots-are-fueling-online-holocaust-denial/

Insights

UNESCO, AI 챗봇이 온라인 홀로코스트 부정(Holocaust Denial)을 부추기고 있다고 경고

요약

핵심 포인트

역사적 왜곡의 기술적 메커니즘 (The Technical Mechanics of Historical Distortion)

딥페이크와 살아있는 기억의 말살

콘텐츠 모더레이션(Content Moderation)의 인프라 실패

규제 압박과 산업계의 책임

댓글

Fed의 Schmid, '너무 높은' 인플레이션을 억제하기 위해 더 긴축적인 통화 정책(monetary policy) 촉구

Wayfair (W), 매출 성장률 팬데믹 이후 최고치 기록하며 30% 급등

실적 발표 후 급등하는 Microsoft와 하락하는 Meta Platforms. 시장은 Zuckerberg에게 너무 박한 평가를 내리고 있는가?

로컬 모델을 위해 에이전트 프레임워크에 구축한 5가지 요소

Fed의 Schmid, '너무 높은' 인플레이션을 억제하기 위해 더 긴축적인 통화 정책(monetary policy) 촉구

Wayfair (W), 매출 성장률 팬데믹 이후 최고치 기록하며 30% 급등

실적 발표 후 급등하는 Microsoft와 하락하는 Meta Platforms. 시장은 Zuckerberg에게 너무 박한 평가를 내리고 있는가?

로컬 모델을 위해 에이전트 프레임워크에 구축한 5가지 요소