본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 16:37

DSIPA: 감정 분포 불변 패턴 발산 분석을 통한 LLM 생성 텍스트 탐지

요약

본 논문은 대형 언어 모델(LLMs)이 생성한 텍스트를 탐지하기 위해 DSIPA라는 새로운 비학습 기반 프레임워크를 제안합니다. 이 방법은 LLM이 일반적으로 감정적으로 더 일관된 출력을 보이는 반면, 인간 작성 텍스트는 더 큰 정서적 변동을 보인다는 근본적인 행동 비대칭성을 활용합니다. DSIPA는 지도 학습이나 모델 파라미터 접근 없이도 제로샷/블랙박스 방식으로 작동하며, 다양한 도메인과 최신 LLM에 대해 높은 탐지 성능과 강력한 일반화 능력을 입증했습니다.

핵심 포인트

  • DSIPA는 감정 분포의 안정성(Emotional Distribution Stability)을 정량화하여 LLM 생성 텍스트를 탐지하는 새로운 접근 방식입니다.
  • 이 프레임워크는 LLM과 인간 작성 텍스트 간의 내재적인 '감정적 일관성' 차이를 활용하며, 이를 통해 행동 비대칭성을 포착합니다.
  • DSIPA는 지도 학습이나 모델 파라미터 접근 없이도 작동하는 제로샷/블랙박스 방식으로 설계되어 실용성이 높습니다.
  • 다양한 도메인(뉴스, 코드, 에세이 등)과 최신 LLM에 대한 광범위한 실험에서 기존 방법 대비 높은 탐지 성능 향상을 보였습니다.

대형 언어 모델 (LLMs) 의 급속한 발전은 허위 정보, 위장 및 콘텐츠 변조 등에 사용되는 기계 생성 텍스트를 탐지하는 새로운 보안 과제를 제시하고 있습니다. 기존 대부분의 탐지 접근법은 적대적 교란, 패러프레이징 공격 및 도메인 이동에 대한 견고성에서 어려움을 겪으며, 종종 모델 파라미터나 대규모 라벨링된 데이터셋에 대한 제한적인 접근이 필요합니다. 이를 해결하기 위해 우리는 제어된 스타일적 변동 하에서 감정 분포의 안정성을 정량화함으로써 LLM 생성 콘텐츠를 탐지하는 새로운 비학습 기반 프레임워크인 DSIPA 를 제안합니다. 이는 LLM 이 일반적으로 더 감정적으로 일관된 출력을 보이는 반면, 인간이 작성한 텍스트는 더 큰 정서적 변동을 보인다는 관찰에 기반하고 있습니다. 우리의 프레임워크는 파라미터 업데이트나 확률 접근 없이도 이러한 내재적 행동 비대칭성을 포착하기 위해 감성 분포 일관성과 감성 분포 보존이라는 두 가지 비지도 학습 지표를 활용하여 제로샷, 블랙박스 방식으로 작동합니다. GPT-5.2, Gemini-1.5-pro, Claude-3, LLaMa-3.3 을 포함한 최첨단 독점 및 오픈소스 모델에서 광범위한 실험이 수행되었습니다. 뉴스 기사, 프로그래밍 코드, 학생 에세이, 학술 논문, 커뮤니티 댓글 등 다섯 가지 도메인에서의 평가는 DSIPA 가 기저선 방법 대비 F1 탐지 점수를 최대 49.89% 향상시킨다는 것을 보여줍니다. 이 프레임워크는 도메인을 넘어뛰는 우수한 일반화能力和 적대적 조건에 대한 강력한 견고성을 보여주어, 진화하는 LLM 환경에서 안전한 콘텐츠 식별을 위한 견고하고 해석 가능한 행동 신호를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0