AI 기술의 숨겨진 데이터 결함: Meta의 3억 5,900만 달러 토렌트 소송 내부 들여다보기

원문은 twarx.com에서 처음 게시되었습니다 - 전체 대화형 버전은 그곳에서 읽을 수 있습니다.

최종 업데이트: 2026년 6월 21일

대부분의 AI 기술 워크플로우 (workflows)는 완전히 잘못된 문제를 해결하고 있습니다. 이들은 모델 품질에 집착하는 반면, 모델에 데이터를 공급하는 무질서하고 조정되지 않은 데이터 파이프라인 (data pipelines)은 무시합니다. 바로 그 파이프라인 때문에 Meta는 AI 기술 모델을 학습시키기 위해 2,300편 이상의 포르노 영화를 토렌트 (torrenting)로 내려받았다는 혐의로 소송을 당했습니다. 이것이 업계 전체가 반복하고 있는 데이터 계층 (data-layer)의 실패 모드이며, Meta 사건은 이를 무시할 수 없게 만들었습니다.

2026년 6월 11일, 연방 판사는 포르노 홀딩 컴퍼니인 Strike 3 Holdings가 제기한 저작권 소송에 대한 Meta의 기각 신청을 거부하여 사건이 진행되도록 허용했습니다 (Mashable). 멀티 에이전트 시스템 (multi-agent systems)을 구축하는 모든 시니어 엔지니어는 이 사건 기록을 주시해야 합니다. 왜냐하면 이 사건이 드러내는 결함은 Meta만의 문제가 아니기 때문입니다. 이는 업계 전체의 데이터 계층 아래에 자리 잡고 있는 해결되지 않은 조정 문제 (coordination problem)입니다.

이 글을 읽고 나면, 당신은 이 사건을 완벽하게 파악하게 될 것입니다. 그리고 이 사건이 밝혀낸 시스템적 실패를 명명하고 수정할 수 있게 될 것입니다.

소송에서는 Meta가 AI 모델을 학습시키기 위해 2018년에서 2025년 사이에 2,300편 이상의 저작권이 있는 성인 영화를 토렌트로 내려받았다고 주장합니다. 출처: Mashable

조어된 프레임워크 (Coined Framework)

AI 조정 격차 (The AI Coordination Gap)

AI 조정 격차 (The AI Coordination Gap)는 AI 시스템에 공급되는 구성 요소들 — 데이터 수집 (data acquisition), 수집 (ingestion), 학습 (training), 배포 (deployment), 그리고 거버넌스 (governance) — 이 출처 (provenance), 동의 (consent), 그리고 정책 (policy)을 강제하는 공유된 조정 계층 (shared coordination layer) 없이 작동할 때 발생하는 실패 모드입니다. Meta의 토렌트 사건은 이 격차가 가시화된 사례입니다. 즉, 수집과 학습 사이에 거버넌스 게이트 (governance gate) 없이 기계적 규모로 데이터를 수집하는 자동화된 파이프라인 (automated pipeline)의 문제입니다.

발표된 내용 — 정확한 사실 관계

2026년 6월 11일, 미국 연방법원 Eumi K. Lee 판사는 Meta의 저작권 소송 기각 시도를 거부하는 명령을 내렸습니다. 판결문에 따르면 원고들은 '[Meta]가 영화 토렌트링을 기반으로 직접적, 대위적, 그리고 기여적 저작권 침해에 대한 책임이 있다고 그럴듯하게 주장했다' (Mashable, 2026년 6월 15일).

다음은 공식 보도에 근거하여 확인된 사실들입니다:

누가 (Who): 원고는 Strike 3 Holdings (404 Media에 따르면 Blacked을 포함한 인기 포르노 사이트의 소유주)와 Strike 3가 과반수 지분을 보유한 Counterlife Media입니다. 피고는 Meta입니다.
무엇을 (What): 소송은 Meta가 2018년에서 2025년 사이에 자사의 AI 모델을 학습시키기 위해 토렌트 프로그램인 BitTorrent를 통해 2,300편 이상의 저작권이 있는 포르노 영화를 다운로드함으로써 저작권을 침해했다고 주장합니다.
소송 시작 시점 (When): Strike 3는 2025년 7월에 처음 소송을 제기했습니다. Meta는 2025년 10월에 기각 신청을 제출하며, 해당 주장이 '터무니없고 근거가 없으며' 다운로드는 '개인적 용도'였다고 주장했습니다.
손해 배상액 (The damages): 해당 기업들은 최대 **3억 5,900만 달러 ($359 million)**의 손해 배상을 요구하고 있습니다.
결정적 증거 (The smoking gun): 소송문에 따르면, Meta의 본사 사무실로 추적되는 IP 주소들이 '인간이 아닌 패턴으로 일관되게' 작동했으며, 이는 '인간이 소비할 수 있는 수준을 넘어선 대규모 침해'를 포함하고 있습니다.

Lee 판사는 '개인적 사용 (personal use)'이라는 방어 논리를 받아들이지 않았습니다. 그녀는 만화부터 포르노에 이르기까지, 동일한 이름을 가진 유사한 파일들을 단 하루 만에 토렌트(torrenting)로 내려받은 IP 주소들을 지적하며 다음과 같이 기술했습니다: '이러한 상관관계가 단순한 우연이거나 개별 인간의 선택에 의한 결과라고 주장하는 것은 신뢰하기 어렵다' (Mashable). Ars Technica와 Reuters Legal의 독립적인 보도 또한 병행되는 여러 AI 소송 전반에서 동일한 데이터 수집 방식 (acquisition-method) 이론을 추적해 왔습니다.

원고들은 2025년 1월에 발생한 도서 해적판 소송에 대한 언론 보도를 통해서야 Meta의 BitTorrent 활동을 발견할 수 있었습니다. '그' 사건의 증거 개시 (Discovery) 과정을 통해 Meta가 AI 학습을 위해 도서를 해적판으로 사용했다는 사실이 드러났으며, Meta가 2025년 6월 해당 사건에서 승소했음에도 불구하고 판사는 '다른 법적 논거'를 가진 소송을 위한 가능성을 명시적으로 열어두었습니다. 그리고 세 번째 타격(Strike 3)이 그 문을 통해 들어온 것입니다.

이것은 무엇인가: 비전문가를 위한 사건 설명

법률 용어를 걷어내고 실제로 주장되는 바를 정리하면 다음과 같습니다: AI 기술을 구축하는 기업이 모델 학습을 위해 엄청난 양의 비디오와 텍스트가 필요했습니다. 소송 내용에 따르면, 이 회사는 해당 콘텐츠를 라이선스(licensing) 받는 대신, Meta의 기업 네트워크와 연결된 자동화된 시스템이 해적 행위로 유명한 P2P (peer-to-peer) 파일 공유 프로토콜인 BitTorrent를 사용하여, 인간은 복제할 수 없는 규모와 속도로 저작권이 있는 자료를 다운로드했다는 것입니다.

토렌트(Torrenting)는 단순히 다운로드하는 것만을 의미하지 않습니다. BitTorrent를 사용하면 파일을 다운로드하는 동시에 그 파일의 조각들을 다른 사용자들에게 _업로드 (upload)_하게 됩니다. 이것이 바로 소송 측에서 단순한 직접 침해 (direct infringement, 다운로드)뿐만 아니라 기여 침해 (contributory infringement) 및 **대위 침해 (vicarious infringement)**를 주장하는 이유입니다. 즉, 토렌트 스웜 (torrent swarm)에 참여함으로써, 해당 콘텐츠를 가져가는 다른 모든 이들에게 콘텐츠를 재배포하게 된다는 것입니다. 저는 많은 팀이 이 차이점을 완전히 놓치는 것을 보아왔습니다. 이 기술적 세부 사항이야말로 이번 사건을 단순한 스크래핑 (scraping) 주장보다 방어하기 훨씬 어렵게 만드는 핵심 요소입니다.

이 소송은 사실상 포르노에 관한 것이 아닙니다. 핵심은 '데이터가 필요했다'는 사실이 데이터를 획득한 방식에 대한 방어 논리가 될 수 있는지 여부입니다. 전 세계의 모든 AI 기업은 이 사건의 기록(docket)을 주시해야 합니다.

소상공인의 관점에서 비유하자면 매우 간단합니다. 당신의 마케팅 자동화 도구가 당신의 광고를 생성하기 위해 경쟁사의 유료 스톡 사진 라이브러리를 몰래 스크래핑 (scraping) 한다고 상상해 보십시오. 결과물은 훌륭할지 모릅니다. 하지만 그 획득 과정은 소송을 자초하는 행위입니다. 시스템이 '가져올 수 있는 것'과 '가져와도 되는 것' 사이의 그 간극 — 이것이 바로 AI 조정 격차 (AI Coordination Gap)의 가장 가공되지 않은 형태입니다.

2,300개 이상의
저작권이 있는 영화가 토렌트로 유포된 것으로 주장됨 (2018–2025)
[Mashable, 2026](https://mashable.com/tech/porn-company-can-sue-meta-torrenting-copyright)
...

Diagram showing how BitTorrent peer-to-peer file sharing simultaneously downloads and uploads copyrighted training data

BitTorrent의 스웜 (swarm) 모델은 왜 이번 소송이 기여 침해 (contributory infringement)를 주장하는지를 설명해 줍니다. 모든 다운로드는 동시에 재배포를 수행하기 때문입니다. 이것이 데이터 획득 계층에서 발생하는 AI 조정 격차 (AI Coordination Gap)의 기술적 핵심입니다.

작동 원리: 쉬운 언어로 설명하는 메커니즘

이 사건이 왜 AI 개발자들에게 위험한지 이해하려면, 전체 파이프라인 (pipeline) — 그리고 거버넌스 (governance) 관문이 어디에서 누락되었는지 — 를 확인해야 합니다.

조정되지 않은 AI 학습 파이프라인 (Uncoordinated AI Training Pipeline, 격차가 존재하는 곳)

  1

    **데이터 획득 (BitTorrent)**

자동화된 작업(automated jobs)이 머신 스케일 (machine scale)로 토렌트 스웜에서 파일을 가져옵니다. 입력값: 토렌트 마그넷 링크 (magnet links). 출력값: 원시 미디어 (raw media). 출처 메타데이터 (provenance metadata) 없음. 동의 확인 (consent check) 없음. 이것이 Meta가 실패했다고 주장되는 지점입니다.

↓

  2
...

미디어는 트랜스코딩 (transcoded), 중복 제거 (deduplicated), 그리고 청킹 (chunked) 과정을 거칩니다. 일반적으로 이 단계에서 획득 출처는 폐기됩니다. 일단 텐서 (tensor)가 되고 나면, 아무도 그것이 어디에서 왔는지 묻지 않기 때문입니다. 출처 (provenance)는 이 단계에서 소멸합니다.

↓

  3
...

모델이 코퍼스 (corpus)를 흡수합니다. 이제 가중치 (weights)에는 저작권이 있는 자료의 패턴이 인코딩됩니다. 침해 사실은 모델 내부에 내재되어 있으며, 재학습 (retraining) 없이는 이를 되돌릴 수 없기에 입증이 불가능합니다.

↓

  4
...

모델이 프로덕션 (production) 환경에 배포됩니다. 출력 결과가 학습 데이터를 그대로 재현 (regurgitate)할 수도 있고 그렇지 않을 수도 있지만, 출력 결과와 상관없이 '획득 (acquisition)' 그 자체만으로도 위반 행위로 간주됩니다.

↓

  5
...

이것은 1단계 '이전'에 위치해야 할 계층입니다: 출처 (provenance) 강제, 라이선스 검증, 동의 원장 (consent ledger). 이것의 부재가 바로 AI 조정 격차 (AI Coordination Gap)입니다.

이 순서가 중요한 이유는 각 단계가 이전 단계의 증거 추적 경로를 파괴하기 때문입니다. 학습 단계에 이르면, 그 누구도 라이선스를 받은 데이터와 토렌트로 수집된 데이터를 구분할 수 없습니다. 조정은 반드시 획득 단계에서 이루어져야 합니다.

명명된 프레임워크

AI 조정 격차 (The AI Coordination Gap) — 적용

Meta의 사례에서 이 격차는 '이 마그넷 링크는 라이선스가 없는 콘텐츠를 가리키고 있으니, GPU에 닿기 전에 차단하라'고 말해주는 조정 계층의 부재를 의미합니다. 모델 팀과 법무 팀은 서로 다른 궤도에서 작동했으며, 데이터 파이프라인은 그 사이를 연결하지 못했습니다.

전체 역량 목록: 판결이 실제로 수행하는 역할

6월 11일의 명령은 절차적인 것이지 최종 판결은 아닙니다. 하지만 실질적인 영향력을 가지고 있습니다. 이 명령이 가능하게 하는 모든 사항은 다음과 같습니다:

세 가지 침해 이론 모두를 통과했습니다. 직접 침해 (Meta가 다운로드함), 대위 침해 (Meta가 이익을 얻고 통제권을 가짐), 기여 침해 (Meta의 토렌트 이용이 재배포됨) 모두 기각 신청(motion-to-dismiss) 장벽을 넘었습니다 (Mashable).
증거 개시(discovery)를 가능하게 합니다. Strike 3는 이제 Meta의 내부 로그, 토렌트 클라이언트 설정, 그리고 훈련 데이터 명세서(training-data manifests)를 소환할 수 있습니다. 이는 '개인적 사용'이라는 방어 논리가 시작되기도 전에 종결시켜 버릴 종류의 기록들입니다.
'비인간적 패턴(non-human pattern)' 표준을 확립합니다. 대량의, 같은 날, 같은 이름의 다운로드는 우연한 인간의 선택일 수 없다는 Lee의 논거는, 향후 원고들이 로그 패턴으로부터 기업의 의도를 추론할 수 있는 템플릿을 제공합니다. 이 템플릿은 다시 사용될 것입니다.
획득(acquisition)과 출력(output)을 구분합니다. 모델이 무엇을 '생성(generate)'하는지에 대한 공정 이용 (fair-use) 논쟁과 달리, 이 사건은 데이터가 어떻게 '획득(obtained)'되었는지를 겨냥하고 있으며, 이는 승소하기 훨씬 더 어려운 방어 논리입니다.

가장 간과된 세부 사항: Meta는 이미 2025년 6월에 2025년 1월의 도서 관련 사건에서 승소했습니다. 그럼에도 법원은 다른 논거를 가진 소송의 가능성을 열어두었습니다. 공정 이용 (fair use)에 대해 승소한다고 해서 데이터를 어떻게 획득했는지에 대한 면책권을 얻는 것은 아닙니다. 그 차이는 3억 5,900만 달러라는 헤드라인보다 더 큰 가치가 있습니다.

중소기업에 주는 의미

여러분은 파운데이션 모델 (foundation models)을 훈련시키고 있지는 않을 것입니다. 하지만 아마도 완전히 검증되지 않은 데이터를 바탕으로 무언가를 구축하고 있을 것이며, 이 사건은 리스크 지도를 다시 그리고 있습니다.

구체적인 기회: 출처 (Provenance)가 판매 가능한 기능이 되고 있습니다. 만약 여러분이 훈련 데이터, 미세 조정 (fine-tuning), 또는 RAG (검색 증강 생성)를 다루는 에이전시나 SaaS를 운영한다면, '모든 입력값은 라이선스를 보유하거나 동의를 받았다'는 점이 문서화된 파이프라인은 이제 실제 돈의 가치가 있는 경쟁 차별화 요소가 됩니다. 기업 구매자들은 데이터 계보 (data lineage)가 깨끗하다는 것을 증명할 수 있는 벤더에게 그렇지 못한 벤더보다 월 $2,000–$5,000의 프리미엄을 지불할 것입니다.

구체적인 리스크: 만약 당신이 경쟁사의 스크래핑(scraped)된 콘텐츠, 동의 없는 고객 데이터, 또는 '테스트용'으로 토렌트 미디어를 사용하여 모델을 미세 조정(fine-tune)한다면, 이제 당신을 겨냥한 명확한 법적 이론이 존재하게 됩니다. 단 한 건의 기여 침해(contributory-infringement) 청구만으로도 연간 기업용 AI (enterprise AI) 예산보다 더 많은 법률 비용이 발생할 수 있습니다. 저는 팀들이 비싼 대가를 치르며 이 사실을 배우는 것을 보아왔습니다 — 그런 팀이 되지 마십시오. 동일한 교훈은 제3자 데이터를 기반으로 비즈니스용 AI 도구 (AI tools for business)를 출시하는 모든 이에게 적용됩니다.

깨끗한 데이터 출처(data provenance)는 이제 단순한 컴플라이언스(compliance) 체크리스트 항목에서 수익 창출 항목으로 격상되었습니다. 모든 바이트(byte)가 어디에서 왔는지 증명할 수 있는 벤더가 더 나은 모델을 가진 벤더보다 더 많은 수익을 올릴 것입니다.

구체적인 사례: 12명 규모의 마케팅 대행사가 고객을 위해 브랜드 보이스 미세 조정(brand-voice fine-tune) 모델을 구축합니다. 만약 학습 코퍼스(training corpus)에 유료 결제 장벽(paywalled)이 있는 기사들이 스크래핑되어 포함되어 있다면, 이 대행사는 Meta와 동일한 획득 리스크(acquisition risk)를 지게 됩니다. 규모는 더 작을지라도, 그에 비례하여 법적 예비비(legal reserves) 또한 훨씬 적기 때문입니다. 해결책은 더 나은 모델이 아닙니다. 데이터 주입(ingestion) 전에 모든 출처를 기록하고 검증하는 조정 레이어(coordination layer)를 구축하는 것입니다.

주요 사용자 — 그리고 누가 가장 주의해야 하는가

이번 판결은 특정 역할(role)들에게 가장 중요합니다. 리스크 노출(exposure)을 부담하는 주체별로 분류하면 다음과 같습니다:

역할 | 노출 수준 | 이번 주 실행 사항