본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 16:26

차등 프라이버시 (DP) 기반 텍스트 재작성이 언어적 스타일을 재형상화한다

요약

본 논문은 차등 프라이버시(DP) 기반 텍스트 재작성이 단순 단어 치환을 넘어 언어의 전반적인 스타일과 레지스터 정체성에 영향을 미친다는 것을 탐구합니다. 연구 결과, DP 제약 하의 재작성은 텍스트의 소통적 서명을 체계적으로 변형시키며, 특히 상호작용 마커나 복잡한 종속 관계 같은 인간 저자의 고유 스타일을 크게 손실시킵니다. 이는 의미론적 내용은 보존하지만, 텍스트를 비참여적이고 설득력이 없는 중립적인 레지스터로 강제적으로 동질화시키는 경향이 있음을 보여줍니다.

핵심 포인트

  • DP 기반 재작성은 단순 어휘 변이를 넘어 텍스트의 전반적인 스타일과 레지스터 정체성에 영향을 미친다.
  • 프라이버시 제약은 텍스트의 소통적 서명을 체계적으로 변화시키며, 인간 저자의 고유한 스타일 마커를 손실시킨다.
  • 재작성된 텍스트는 의미론적 내용은 유지하지만, 상호작용적이거나 설득력이 없는 중립적인 레지스터로 수렴하는 경향을 보인다.
  • 자기회귀식 패러프레이징과 양방향 치환 모두 유사하게 비참여적이고 동질화된 스타일을 유발한다.

차등 프라이버시 (Differential Privacy, DP) 는 언어 모델의 생성 능력을 활용하여 단절된 단어 수준의 치환에서 연속적인 문장 수준의 재작성으로 발전해 왔다. 이러한 형태의 텍스트 프라이버시화는 형식적인 프라이버시 보장과 문법적 일관성 사이의 균형을 맞추는 데 가장 적합하지만, 텍스트의 레지스터 (register) 정체성에 미치는 영향은 여전히 크게 탐구되지 않았다. 차등 프라이버시 기반 재작성에 대한 다차원적 스타일 프로파일을 수행한 결과, 프라이버시의 비용이 어휘적 변이 (lexical variation) 를 넘어선다는 것을 입증했다. 구체적으로, 프라이버시 제약 하의 재작성은 텍스트의 소통적 서명 (communicative signature) 의 체계적인 기능적 돌연변이 (functional mutation) 를 유발한다는 사실을 발견했다. 이 변화는 상호작용 마커 (interactive markers), 문맥적 참조 (contextual references), 그리고 복잡한 종속 관계 (complex subordination) 의 심각한 소실로 특징지어진다. 다양한 프라이버시 예산 (privacy budgets) 을 걸쳐 자기회귀식 패러프레이징 (autoregressive paraphrasing) 과 양방향 치환 (bidirectional substitution) 을 비교한 결과, 두 아키텍처 모두 비참여적이고 설득력이 없는 레지스터 (non-involved and non-persuasive register) 로의 수렴을 강제한다는 것을 관찰했다. 이러한 레지스터 맹점 세안 (register-blind sanitization) 은 의미론적 내용 (semantic content) 을 효과적으로 보존하지만, 인간 저자의 담화를 정의하는 미묘한 스타일 마커를 구조적으로 동질화 (structurally homogenizes) 한다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0