DSIPA: 감정 분포 불변 패턴 발산 분석을 통한 LLM 생성 텍스트 탐지

대형 언어 모델 (LLMs) 의 급속한 발전은 허위 정보, 위장 및 콘텐츠 변조 등에 사용되는 기계 생성 텍스트를 탐지하는 새로운 보안 과제를 제시하고 있습니다. 기존 대부분의 탐지 접근법은 적대적 교란, 패러프레이징 공격 및 도메인 이동에 대한 견고성에서 어려움을 겪으며, 종종 모델 파라미터나 대규모 라벨링된 데이터셋에 대한 제한적인 접근이 필요합니다. 이를 해결하기 위해 우리는 제어된 스타일적 변동 하에서 감정 분포의 안정성을 정량화함으로써 LLM 생성 콘텐츠를 탐지하는 새로운 비학습 기반 프레임워크인 DSIPA 를 제안합니다. 이는 LLM 이 일반적으로 더 감정적으로 일관된 출력을 보이는 반면, 인간이 작성한 텍스트는 더 큰 정서적 변동을 보인다는 관찰에 기반하고 있습니다. 우리의 프레임워크는 파라미터 업데이트나 확률 접근 없이도 이러한 내재적 행동 비대칭성을 포착하기 위해 감성 분포 일관성과 감성 분포 보존이라는 두 가지 비지도 학습 지표를 활용하여 제로샷, 블랙박스 방식으로 작동합니다. GPT-5.2, Gemini-1.5-pro, Claude-3, LLaMa-3.3 을 포함한 최첨단 독점 및 오픈소스 모델에서 광범위한 실험이 수행되었습니다. 뉴스 기사, 프로그래밍 코드, 학생 에세이, 학술 논문, 커뮤니티 댓글 등 다섯 가지 도메인에서의 평가는 DSIPA 가 기저선 방법 대비 F1 탐지 점수를 최대 49.89% 향상시킨다는 것을 보여줍니다. 이 프레임워크는 도메인을 넘어뛰는 우수한 일반화能力和 적대적 조건에 대한 강력한 견고성을 보여주어, 진화하는 LLM 환경에서 안전한 콘텐츠 식별을 위한 견고하고 해석 가능한 행동 신호를 제공합니다.

Insights

DSIPA: 감정 분포 불변 패턴 발산 분석을 통한 LLM 생성 텍스트 탐지

요약

핵심 포인트

댓글

무료라고 믿기 어려울 정도로 강력한 10가지 GitHub 저장소

AI가 인플레이션을 부채질하며 비트코인이 65,000달러 근처에서 정체되는 이유

Nvidia가 Nebius 지분 9.3% 보유를 공개함에 따라 화요일 주가가 약 19% 급등했습니다 — Nvidia가 실제로 무엇을 사고

Chrome 148부터 `Math.tanh`가 V8 내장 루틴 대신 시스템 `libm`을 사용함에 따라 Linux, macOS

무료라고 믿기 어려울 정도로 강력한 10가지 GitHub 저장소

AI가 인플레이션을 부채질하며 비트코인이 65,000달러 근처에서 정체되는 이유

Nvidia가 Nebius 지분 9.3% 보유를 공개함에 따라 화요일 주가가 약 19% 급등했습니다 — Nvidia가 실제로 무엇을 사고

Chrome 148부터 `Math.tanh`가 V8 내장 루틴 대신 시스템 `libm`을 사용함에 따라 Linux, macOS