대규모 언어 모델을 이용한 문체적 도용 조사: EU 법률에 따른 저작권 침해 평가 프레임워크

웹 규모의 코퍼스 (Corpora)로 학습된 대규모 언어 모델 (LLM)은 저작권을 침해할 수 있는 출력을 생성하지만, 기존의 기술적 보호 조치는 축자적 암기 (Verbatim memorisation)에만 좁게 집중되어 있습니다. EU 저작권 교리 (Copyright doctrine)는 문체적 선택, 서사 구조 (Narrative structure), 그리고 창의적 정교화 (Creative elaboration)까지 확장되는 더 넓은 기준인 실질적 유사성 (Substantial similarity)을 적용합니다. 현재의 방법론이 탐지하는 것과 법이 보호하는 것 사이의 이러한 불일치는 상당한 준수 격차 (Compliance gap)를 남깁니다. 우리는 계산적 중첩 (Computational overlap), 문체적 차원 (문체 (Writing style), 서사적 목소리 (Narrative voice)), 내용적 차원 (캐릭터 (Character), 플롯 (Plot), 장면 (Scene), 세계관 구축 (World building)), 그리고 법적 예외 사항 (패러디 (Parody), 파스티슈 (Pastiche), 인용 (Quotation), 스칸 아 페르 (Scènes à faire))을 평가하는 10가지 평가자를 통해 EU 저작권 교리를 실행 가능한 형태로 구현하는 LLM-as-a-judge 프레임워크인 PSALM을 소개합니다. 번역된 네덜란드 역사 문학 작품들로 미세 조정 (Fine-tuned)된 Llama~3.2 모델에 PSALM을 적용한 결과, 다음과 같은 사실을 발견했습니다: 1) 지시어 미세 조정 (Instruction-tuned) 모델은 코퍼스 노출 전에도 무시할 수 없는 수준의 기본 문체 유사성을 보입니다; 2) 미세 조정은 축자적 암기를 넘어 추상적인 서사 패턴에 이르기까지, 저작권 침해와 관련된 모든 차원에서 체계적인 문체적 도용 (Stylistic appropriation)을 유발합니다; 3) 부정 선호 최적화 (Negative Preference Optimisation) 언러닝 (Unlearning)은 유사성을 상당히 감소시키지만, 탐지 가능한 잔류 문체 패턴을 남깁니다. 이러한 발견은 문자 그대로의 복제만을 목표로 하는 보호 조치가 더 넓은 저작권 위험을 완화하기에는 불충분함을 나타냅니다. PSALM은 감사 가능하고 법적으로 정보에 기반한 준수 평가를 위한 인프라를 제공하지만, 자동화된 유사성 점수와 침해 결정 사이의 관계는 법률 전문가에 의한 검증이 필요합니다. 본 연구는 정성적인 법적 표준과 정량적인 기술적 측정 사이의 가교 역할을 하며, 생성형 AI와 EU 지식 재산권 법 사이의 근본적인 긴장 관계를 드러냅니다.

Insights

대규모 언어 모델을 이용한 문체적 도용 조사: EU 법률에 따른 저작권 침해 평가 프레임워크

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들