대규모 언어 모델을 이용한 문체적 도용 조사: EU 법률에 따른 저작권 침해 평가 프레임워크
요약
LLM의 문체적 도용을 EU 저작권법의 '실질적 유사성' 기준으로 평가하는 PSALM 프레임워크를 제안합니다. 연구 결과, 미세 조정된 모델은 단순 암기를 넘어 서사 패턴까지 체계적으로 도용하며, 기존의 보호 조치로는 이를 완벽히 방지하기 어렵다는 것을 보여줍니다.
핵심 포인트
- EU 저작권법 기준의 문체적 도용 평가 프레임워크 PSALM 소개
- LLM이 단순 복제를 넘어 서사 구조와 문체까지 도용할 위험 확인
- 미세 조정이 저작권 침해와 관련된 체계적 도용을 유발함
- 언러닝 기술이 유사성을 줄이지만 잔류 문체 패턴은 남음
웹 규모의 코퍼스 (Corpora)로 학습된 대규모 언어 모델 (LLM)은 저작권을 침해할 수 있는 출력을 생성하지만, 기존의 기술적 보호 조치는 축자적 암기 (Verbatim memorisation)에만 좁게 집중되어 있습니다. EU 저작권 교리 (Copyright doctrine)는 문체적 선택, 서사 구조 (Narrative structure), 그리고 창의적 정교화 (Creative elaboration)까지 확장되는 더 넓은 기준인 실질적 유사성 (Substantial similarity)을 적용합니다. 현재의 방법론이 탐지하는 것과 법이 보호하는 것 사이의 이러한 불일치는 상당한 준수 격차 (Compliance gap)를 남깁니다. 우리는 계산적 중첩 (Computational overlap), 문체적 차원 (문체 (Writing style), 서사적 목소리 (Narrative voice)), 내용적 차원 (캐릭터 (Character), 플롯 (Plot), 장면 (Scene), 세계관 구축 (World building)), 그리고 법적 예외 사항 (패러디 (Parody), 파스티슈 (Pastiche), 인용 (Quotation), 스칸 아 페르 (Scènes à faire))을 평가하는 10가지 평가자를 통해 EU 저작권 교리를 실행 가능한 형태로 구현하는 LLM-as-a-judge 프레임워크인 PSALM을 소개합니다. 번역된 네덜란드 역사 문학 작품들로 미세 조정 (Fine-tuned)된 Llama~3.2 모델에 PSALM을 적용한 결과, 다음과 같은 사실을 발견했습니다: 1) 지시어 미세 조정 (Instruction-tuned) 모델은 코퍼스 노출 전에도 무시할 수 없는 수준의 기본 문체 유사성을 보입니다; 2) 미세 조정은 축자적 암기를 넘어 추상적인 서사 패턴에 이르기까지, 저작권 침해와 관련된 모든 차원에서 체계적인 문체적 도용 (Stylistic appropriation)을 유발합니다; 3) 부정 선호 최적화 (Negative Preference Optimisation) 언러닝 (Unlearning)은 유사성을 상당히 감소시키지만, 탐지 가능한 잔류 문체 패턴을 남깁니다. 이러한 발견은 문자 그대로의 복제만을 목표로 하는 보호 조치가 더 넓은 저작권 위험을 완화하기에는 불충분함을 나타냅니다. PSALM은 감사 가능하고 법적으로 정보에 기반한 준수 평가를 위한 인프라를 제공하지만, 자동화된 유사성 점수와 침해 결정 사이의 관계는 법률 전문가에 의한 검증이 필요합니다. 본 연구는 정성적인 법적 표준과 정량적인 기술적 측정 사이의 가교 역할을 하며, 생성형 AI와 EU 지식 재산권 법 사이의 근본적인 긴장 관계를 드러냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기