AI "Slop"의 종말? Google이 LoRA와 LLM을 사용하여 조직적인 합성 스팸에 대응하는 방법

Google의 새로운 Scalable Cluster Termination System (S-CTS)에 대한 심층 분석과, 비디오 플랫폼을 범람하는 AI 생성 스팸을 잡기 위해 고급 AI가 어떻게 사용되고 있는지 알아봅니다.

서론: "AI Slop"의 범람

최근 주요 온라인 비디오 플랫폼에서 시간을 보냈다면, 아마도 "AI slop"을 접해 보았을 것입니다. 이는 인공지능 (Artificial Intelligence)에 의해 생성된 대량 생산된 저품질 또는 명백히 악의적인 콘텐츠를 설명하는 데 사용되는 용어입니다. 기괴하고 절차적으로 생성된 고어물부터 합성 사칭 및 AI 내레이션 사기 영상에 이르기까지, 이 콘텐츠는 품질 필터를 압도하고 사용자를 플랫폼 외부의 사기로 유도하도록 설계되었습니다.

이러한 콘텐츠의 제작자들은 무작위가 아닙니다. 이들은 고도로 조직화된 악의적 행위자 네트워크입니다. 이들은 생성형 AI (Generative AI) 도구를 사용하여 동일한 스팸의 무한하고 고유한 변형을 만들어내며, 플랫폼 위반 임계값 바로 아래에 머물도록 출력을 전략적으로 조정합니다.

획기적인 새로운 논문에서 Google 연구팀인 Abhinav Mathur, Claire Liu, Kelvin Tan, Yifei Liu는 이 위협에 맞서기 위한 새로운 방어 메커니즘을 공개합니다. 이들은 **Scalable Cluster Termination System (S-CTS)**을 소개하는데, 이는 LoRA (Low-Rank Adaptation) 및 **APO (Automatic Prompt Optimization)**로 강화된 대규모 언어 모델 (LLMs)을 활용하여 전례 없는 규모로 조직적인 봇넷 (bot-nets)을 탐지하고 차단하는 멀티모달 (multimodal) 방어 시스템입니다.

다음은 이 시스템이 어떻게 작동하는지, 그 이면의 기술은 무엇인지, 그리고 온라인 콘텐츠 중재의 미래에 어떤 의미를 갖는지에 대한 종합적인 분석입니다.

문제점: 기존의 중재 방식이 실패하는 이유

역사적으로 플랫폼들은 콘텐츠 중심의 중재 (content-centric moderation)에 의존해 왔습니다. 만약 영상이 정책을 위반하면 삭제됩니다. 만약 스팸 조각이 식별되면, 해당 디지털 지문 (hash)이 차단 목록 (blocklist)에 추가됩니다.

하지만 생성형 AI (Generative AI)는 이 모델을 무너뜨렸습니다. AI는 픽셀 수준의 지문 (fingerprint)이 완전히 고유하면서도 기능적으로는 동일한 콘텐츠를 생성할 수 있기 때문에, 전통적인 암호화 해싱 (cryptographic hashing) 및 메타데이터 필터는 무용지물입니다. 더욱이, 신뢰와 안전 (trust and safety) 문제를 개별 게시물 단위의 고립된 결정으로 취급하는 것은 문제의 근본 원인인 콘텐츠를 생성하는 조직적인 네트워크를 간과하는 것입니다.

적대적 AI (adversarial AI)를 물리치기 위해, 플랫폼은 오직 _콘텐츠 (content)_만을 바라보는 것을 멈추고, 이를 업로드하는 계정들의 _행동 (behavior)_을 살피기 시작해야 합니다.

패러다임의 전환: 콘텐츠에서 클러스터로

S-CTS 시스템은 방어 벡터를 개별 콘텐츠 평가에서 시스템적인 계정 연관성 및 행동 클러스터링 (behavioral clustering)으로 전환합니다. 개별 영상들을 상대로 끝없는 두더지 잡기 게임을 하는 대신, S-CTS는 동일한 행위자나 자동화된 스크립트에 의해 제어될 통계적 가능성이 높은 계정 그룹인 "생성 클러스터 (Generation Clusters)"를 식별합니다.

이 시스템은 두 가지 핵심 머신러닝 분류기 (machine learning classifiers)에 의존합니다:

1. 조정 탐지기 (The Coordination Detector, 분류기 ΨA)

이 구성 요소는 네트워크 레이더 역할을 합니다. 이는 독점적인 인프라 신호를 분석하여 동기화된 비정상적 행동을 보이는 계정을 찾아냅니다. 다음과 같은 항목을 조사합니다:

API 사용 패턴: 이 계정들이 자동화된 스크립트를 암시하는 방식으로 플랫폼과 상호작용하고 있는가?
이벤트 시계열 분석 (Event time series analysis): 영상이 초인적인 속도로, 혹은 정확하고 로봇 같은 간격으로 업로드되고 있는가?
생성형 AI 특화 메타데이터: 이 계정들을 동일한 생성형 AI 파이프라인 (generative AI pipeline)에 연결하는 숨겨진 디지털 흔적이 있는가?

2. 합성 콘텐츠 분류기 (The Synthetic Content Classifier, 분류기 ΨC)

의심스러운 계정 클러스터(cluster)가 식별되면, 이 구성 요소는 "콘텐츠 무결성 표준 (Content Integrity Standards)"에 따라 콘텐츠 자체의 점수를 매깁니다. 이는 합성 사칭(synthetic impersonation), 절차적 충격/고어(procedural shock/gore), AI 생성 스캠(AI-generated scams)과 같이 AI 오용에 매우 취약한 수직적 영역(verticals)을 타겟으로 합니다. 또한 딥 피처 추출(deep feature extraction)을 사용하여 해당 클러스터의 채널 전반에 걸쳐 공유되는 합성 생성의 미세한 흔적인 "생성 아티팩트 (Generative Artifacts)"를 찾아냅니다.

핵심 비결: LLM, LoRA, 그리고 APO

S-CTS의 가장 혁신적인 측면은 실제 멀티미디어 콘텐츠를 처리하는 방식입니다. AI 아티팩트를 찾기 위해 원본 비디오 픽셀을 분석하는 것은 계산 비용이 많이 들고 속도가 느립니다. 대신, Google은 의미론적 추론기 (semantic reasoner) 역할을 수행할 수 있도록 **2단계 LLM 아키텍처 (Two-Stage LLM Architecture)**를 설계했습니다.

1단계: 멀티모달 컨텍스트 증류 (Multimodal Context Distillation)

LLM이 수백만 시간의 비디오를 강제로 "시청"하게 하는 대신, 1단계에서는 가장 중요한 특징을 추출하여 압축된 텍스트 요약본으로 변환합니다. 분석 항목은 다음과 같습니다:

비디오 텍스트 임베딩 (Video Text Embeddings) 및 주요 용어: 반복적이고 템플릿화된 AI 스크립트를 탐지하기 위함입니다.
업로드 페이싱 (Upload Pacing): 비인간적이고 고빈도의 게시 동작을 식별하기 위함입니다.
시각적 임베딩 (Visual Embeddings): 콘텐츠의 의미론적 성격을 분류하기 위함입니다.

2단계: 채널 수준 분류 (Channel-Level Classification)

1단계에서 생성된 텍스트 요약본은 특화된 대규모 언어 모델 (LLM, 예: Gemini 2.0 Flash)에 입력됩니다. LLM은 고급 의미론적 추론을 사용하여 해당 콘텐츠가 "적대적 슬롭 (adversarial slop)"인지, 아니면 정당한 창의적 AI 사용인지를 결정합니다.

LoRA와 APO가 게임 체인저인 이유

모든 새로운 AI 스팸 트렌드를 인식하기 위해 거대한 LLM을 처음부터 학습시키는 것은 불가능할 정도로 느리고 비용이 많이 듭니다. 이를 해결하기 위해 S-CTS는 **매개변수 효율적 미세 조정 (Parameter-Efficient Fine-Tuning, PEFT)**을 사용합니다:

LoRA (Low-Rank Adaptation): 거대한 LLM 전체를 업데이트하는 대신, LoRA를 통해 시스템은 매개변수의 아주 작은 부분만을 업데이트할 수 있습니다. 이는 메모리 사용량과 연산 비용을 획기적으로 줄여주어, 시스템이 확장 가능한 TPU 인프라에서 효율적으로 작동할 수 있게 합니다.
APO (Automatic Prompt Optimization): 공격자들이 새로운 스팸(slop)의 물결을 만들기 위해 새로운 생성형 AI (GenAI) 모델(Sora 또는 Kling 등)을 출시할 때, APO를 통해 시스템은 밀집 모델 (dense model)을 재학습할 필요 없이 새로운 트렌드를 포착할 수 있도록 프롬프트를 설계하고 적응시킬 수 있습니다.

이러한 결합을 통해 방어 시스템은 새로운 AI 위협에 대해 몇 달이 아닌 며칠 만에 적응할 수 있습니다.

실질적인 영향: 속도와 정밀도

연구진은 6개월의 기준점(baseline) 동안 S-CTS를 평가했으며, 운영상의 영향은 놀라웠습니다:

조직적인 클러스터를 검증하는 데 소요되는 시간이 인간 검토자 대비 32% 감소했습니다.
합성 콘텐츠를 검토하는 데 소요되는 시간이 50% 감소했습니다.

나아가, 이 시스템은 정당한 사용자를 보호하기 위해 엄격한 임계값(threshold)을 갖도록 설계되었습니다. 자동 삭제 (Violates)는 92%에서 95% 사이의 높은 정밀도(precision) 임계값으로 설정됩니다. 이를 통해 시스템이 오탐(false positives)을 거의 발생시키지 않도록 보장하며, 인간 창작자와 정당한 AI 아티스트들이 부당하게 검열되는 것을 방지합니다. 반대로, 자동 승인에는 높은 재현율(recall)을 사용하여 대다수의 양호한 콘텐츠를 검토 파이프라인 밖으로 밀어냄으로써, 인간 중재자가 정말로 모호하거나 악의적인 사례에만 집중할 수 있도록 합니다.

인간의 창의성 보호: 윤리적 균형

AI 중재에서 가장 중요한 과제 중 하나는 "정의 드리프트 (definition drift)", 즉 알고리즘이 스패머를 잡으려다 실수로 정당한 AI 아티스트를 차단할 위험입니다.

S-CTS는 핵심 아키텍처인 **클러스터 요구 사항 (cluster requirement)**을 통해 이러한 위험을 완화합니다. 시스템은 개별적인 단일 업로드보다는 주로 조직적이고 대량 생산된 봇넷 (bot-nets)을 표적으로 삼음으로써, 단순히 새로운 AI 도구를 실험하고 있는 개인 창작자를 처벌할 위험을 획기적으로 줄입니다.

또한, 팀은 오래된 데이터에 기반한 집행을 방지하기 위해 LLM 결정에 대한 정기적 만료 정책을 시행하며, LoRA 적응 (adaptation) 프로세스를 엄격히 모니터링하여 파운데이션 모델 (foundation model)에 내재된 편향이 증폭되지 않도록 보장합니다.

향후 과제

합성 미디어 (synthetic media)와의 싸움은 지속적인 군비 경쟁입니다. Google 팀은 향후 개발을 위한 몇 가지 핵심 영역을 다음과 같이 제시했습니다.

출처 검증 (Provenance Verification): AI를 "탐지"하는 단계에서 미디어의 진위성을 수학적으로 "증명"하는 단계로 나아가기 위해, C2PA (Coalition for Content Provenance and Authenticity)와 같은 암호화 신호 및 SynthID와 같은 인지할 수 없는 디지털 워터마크를 통합합니다.
딥페이크 타겟팅 (Targeting Deepfakes): LLM 기반 프레임워크를 확장하여 비동의 성적 이미지나 정치적 사칭과 같이 해악이 큰 딥페이크를 구체적으로 추적합니다.
일일 적대적 추적 (Daily Adversarial Tracking): LLM을 활용하여 오픈 소스 커뮤니티를 매일 모니터링함으로써, 공격자가 새로운 생성 모델을 출시하는 바로 그날에 맞춰 탐지 모델이 발맞추어 적응할 수 있도록 합니다.

마치며

AI가 생성한 "슬롭 (slop)"의 범람은 온라인 플랫폼 역사상 가장 중대한 확장성(scalability) 과제 중 하나입니다. 전통적인 콘텐츠 중심의 중재 (moderation) 방식은 스팸의 무한한 변형을 생성할 수 있는 적대적 네트워크를 처리하기에 더 이상 적합하지 않습니다.

Google의 **Scalable Cluster Termination System (S-CTS)**는 신뢰 및 안전 (trust and safety) 엔지니어링의 중대한 진화를 나타냅니다. 개별 영상에서 조직적인 봇넷 클러스터로 초점을 전환하고, 합성 의미론 (synthetic semantics)을 대규모로 이해하기 위해 LoRA 및 LLM의 민첩성을 활용함으로써, 플랫폼은 마침내 우위를 다시 점할 수 있습니다.

생성형 AI (Generative AI)가 더욱 대중화됨에 따라, 그 오용에 맞서 방어하기 위해 우리가 사용하는 도구들 또한 그에 못지않게 발전해야 합니다. S-CTS는 AI를 잡는 가장 좋은 방법이 실제로 더 나은 AI를 사용하는 것임을 증명합니다.

Google 공식 논문

Insights

AI "Slop"의 종말? Google이 LoRA와 LLM을 사용하여 조직적인 합성 스팸에 대응하는 방법

요약

핵심 포인트