본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 05:31

편집 개입이 모국어 흔적 탐지에 미치는 영향

요약

본 논문은 인간-AI 공동 집필 환경에서 모국어 식별(NLI)의 어려움을 다루며, 편집 개입이 L1 흔적 탐지에 미치는 영향을 분석했습니다. 연구 결과에 따르면, NLI 모델은 단순한 표면적 문법 오류보다는 비관용적인 어휘 선택이나 화용론적 전이와 같은 깊은 구조적 특징을 활용할 때 높은 정확도를 유지합니다. 특히, 최소한의 편집 개입이 L1 특징 보존에 가장 효과적이며, 과도한 유창성 교정 및 패러프레이징은 이러한 고유한 L1 흔적들을 정상화시켜 탐지 성능을 크게 저하시킵니다.

핵심 포인트

  • NLI는 LLM의 광범위한 편집 개입으로 인해 근본적인 변화를 겪고 있다.
  • L1 귀속은 표면적 문법 오류보다는 비관용적 어휘 선택이나 화용론적 전이 같은 깊은 구조적 특징에 의존한다.
  • 최소한의 편집(Minimal Editing)이 L1 고유의 구조적 흔적을 가장 잘 보존하여 높은 프로파일링 정확도를 유지시킨다.
  • 과도한 유창성 교정이나 패러프레이징은 L1 특징들을 정상화시켜 NLI 성능에 심각한 저하를 초래한다.

모국어 식별 (Native Language Identification, NLI)은 저자의 비(非)모국어 작문에서 그가 사용하는 모국어(L1)를 판별하는 작업입니다. 인간-AI 공동 집필의 등장으로 인해, 비모국어 텍스트는 대규모 언어 모델(LLM)에 의해 일상적으로 교정되고 재작성되며, 이는 NLI 모델이 의존하는 언어적 특징을 근본적으로 변화시키고 있습니다. 본 논문에서는 편집 개입 정도가 증가함에 따라 L1 흔적의 견고성을 조사합니다. Write & Improve 2024 코퍼스에서 가져온 450개의 에세이를 다양한 수준의 문법 오류 교정(Grammatical Error Correction, GEC) 및 패러프레이징을 거쳐 처리함으로써, 우리는 L1 귀속이 표면적 오류에 전적으로 의존하지 않음을 입증합니다. 대신, 탐지 모델은 더 깊은 L1 특징들, 즉 비관용적인 어휘-의미 선택(unidiomatic lexico-semantic choices), 화용론적 전이(pragmatic transfer), 그리고 저자의 근본적인 문화적 관점을 활용합니다. 우리는 최소한의 편집이 이러한 구조적 흔적을 보존하고 높은 프로파일링 정확도를 유지한다는 것을 발견했습니다. 반면, 유창성 편집과 패러프레이징은 이러한 L1 특징들을 정상화하여 성능에 심각한 저하를 초래합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0