arXiv논문2026. 04. 24. 11:52

생성형 AI 시대, 설명 가능한 작가 스타일 분리 학습 (EAVAE)

요약

본 논문은 생성형 AI 시대에 일반화 성능이 뛰어난 저자 식별(Authorship Attribution)을 위해 '설명 가능한 작가 스타일 분리 학습 (EAVAE)' 프레임워크를 제안합니다. 기존 모델들이 내용과 스타일 간의 혼재성(entanglement)으로 인해 발생하는 오류를 개선하고자, EAVAE는 아키텍처 설계 단계부터 스타일과 내용을 명시적으로 분리합니다. 특히, 단순한 분류 성능을 넘어 결정 근거에 대한 자연어 설명을 생성하는 혁신적인 판별자(discriminator)를 도입하여 모델의 해석 가능성(interpret-b

핵심 포인트

EAVAE는 아키텍처 설계 단계부터 스타일과 내용을 명시적으로 분리하여 일반화 문제를 해결합니다.
스타일 인코더는 다양한 저자 데이터에 대해 지도적 대조 학습(supervised contrastive learning)으로 사전 훈련됩니다.
새로운 판별자는 단순히 분류를 넘어, 결정의 근거가 되는 자연어 설명을 생성하여 모델 해석 가능성을 높입니다.
저자 식별 분야에서 Amazon Reviews, PAN21, HRS 등 다양한 데이터셋에서 최신 성능을 달성했습니다.
AI 생성 텍스트 탐지(M4 dataset)에서 소수 샘플 학습(few-shot learning)에 강점을 보였습니다.

생성형 AI 시대의 저자 식별: EAVAE 프레임워크

저자 식별(Authorship Attribution)과 AI가 생성한 텍스트 탐지(AI-generated text detection)는 현재 중요한 연구 분야입니다. 하지만 기존 방식들은 작가의 글 스타일(style)과 내용적 주제(content) 간의 혼재성(entanglement) 문제에 직면해 있습니다. 즉, 모델이 실제로는 상관관계가 없는 '우연한 연관성(spurious correlations)'을 학습하여 특정 도메인이나 저자에게만 국한된 성능을 보이고 다른 영역에서는 일반화가 어렵다는 한계가 있었습니다.

본 논문은 이러한 문제를 해결하기 위해 **설명 가능한 작가 스타일 분리 학습 (Explainable Authorship Variational Autoencoder, EAVAE)**이라는 새로운 프레임워크를 제안합니다. EAVAE의 핵심은 아키텍처 설계 단계부터 스타일과 내용을 명시적으로 분리(explicitly disentangles)하는 데 있습니다.

💡 EAVAE의 작동 원리 및 혁신성

1. 사전 학습 (Pre-training):
EAVAE는 먼저 다양한 저자 데이터셋을 활용하여 스타일 인코더를 지도적 대조 학습(supervised contrastive learning) 방식으로 사전 훈련합니다. 이를 통해 순수한 작가 고유의 스타일 특징만을 추출하는 데 집중할 수 있습니다.

2. 분리된 아키텍처 (Separate Architecture):
본격적인 학습 단계에서는 변이형 오토인코더(Variational Autoencoder, VAE) 구조를 채택하며, 스타일 표현과 내용 표현을 위한 별도의 인코더를 사용합니다. 이 설계 자체가 정보의 혼재를 방지하는 핵심 역할을 합니다.

3. 설명 가능한 판별자 (Explainable Discriminator):
EAVAE가 가장 혁신적인 부분은 '설명 가능성'을 통합했다는 점입니다. 기존 모델들이 단순히 스타일/내용 쌍이 같은 출처인지 아닌지를 분류하는 데 그쳤다면, EAVAE의 새로운 판별자는 다음 두 가지 기능을 수행합니다:

분류: 스타일/내용 쌍이 동일한 저자/출처에 속하는지 여부를 판단합니다.
설명 생성: 이 결정(예:

AI 자동 생성 콘텐츠

원문 바로가기

생성형 AI 시대, 설명 가능한 작가 스타일 분리 학습 (EAVAE)

요약

핵심 포인트

생성형 AI 시대의 저자 식별: EAVAE 프레임워크

💡 EAVAE의 작동 원리 및 혁신성

댓글