arXiv논문2026. 06. 26. 12:19

표면적 형태를 넘어: LLM 기반 암호화된 언어 탐지를 위한 메커니즘 중심의 포괄적인 간접 언어 인코딩(ILE) 분류 체계

요약

검열을 피하기 위해 사용되는 간접 언어 표현(ILE)을 탐지하기 위해 메커니즘 중심의 새로운 분류 체계를 제안하는 연구입니다. LLM을 활용해 알고스피크와 완곡어법 등을 효과적으로 분류하며, 기존 방식 대비 정확도와 F1 점수를 크게 향상시켰습니다.

핵심 포인트

의미 인코딩 및 복구 연산 기반의 ILE 분류 체계 제안
LLM 프롬프트에 통합하여 암호화된 언어 탐지 성능 강화
기존 벤치마크 대비 정확도 4.7%, F1 점수 5.4% 향상
콘텐츠 중재 및 새로운 암호화 언어 탐지를 위한 스캐폴드 역할

소셜 미디어에서의 검열과 감시를 피하기 위해, 일부 사용자들은 민감한 의미를 위장하는 간접 언어 표현(Indirect Linguistic Expressions, ILE)을 일상적으로 만들어냅니다. 이러한 표현들은 의도와 맥락에 따라 알고스피크(algospeak), 완곡어법(euphemisms), 적대적 난독화(adversarial obfuscation) 등으로 나타나며, 반복되는 인코딩 메커니즘을 포함합니다. 본 논문에서는 의사소통 목표로부터 추상화하여, 대신 의미가 인코딩되고 복구되는 기저의 연산(operations)을 통해 분류하는 포괄적이고 메커니즘 중심적인 ILE 분류 체계를 제안합니다. 우리는 수동으로 주석을 단 2,000개의 TikTok 및 Bluesky 게시물을 사용하여, 이 분류 체계를 LLM 프롬프트에 통합하고 이를 기존의 4가지 분류 체계 및 분류 체계가 없는 베이스라인(no-taxonomy baseline)과 비교함으로써 해당 분류 체계를 평가합니다. 제안된 분류 체계는 세 가지 LLM 모두에서 문서 및 스팬(span) 수준의 가장 강력한 성능을 달성하였으며, 가장 성능이 좋은 벤치마크 대비 정확도(accuracy)에서 4.7%, F1 점수에서 5.4%의 향상을 기록했습니다. 실증적 결과는 새롭게 등장하는 암호화된 언어를 탐지하기 위한 안정적인 스캐폴드(scaffold)로서, 그리고 콘텐츠 중재(content moderation)를 위한 유용한 입력값으로서 포괄적이고 메커니즘 중심적인 분류 체계의 중요성을 보여줍니다. 면책 조항: 이 논문에는 비속어, 저속한 표현 또는 불쾌감을 줄 수 있는 내용이 포함되어 있을 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

표면적 형태를 넘어: LLM 기반 암호화된 언어 탐지를 위한 메커니즘 중심의 포괄적인 간접 언어 인코딩(ILE) 분류 체계

요약

핵심 포인트

댓글