본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 14:05

시를 보다: MLLM을 이용한 AI 생성 현대 중국 시의 이미지-의미론적 탐지

요약

현대 중국 시 탐지를 위해 이미지-의미론적 가이드를 결합한 새로운 MLLM 기반 탐지 방법을 제안합니다. 텍스트와 이미지를 통합하여 시의 의미와 감정을 분석함으로써 기존 RoBERTa 및 텍스트 기반 탐지기보다 뛰어난 성능을 입증했습니다.

핵심 포인트

  • 이미지-의미론적 가이드를 활용한 혁신적 시 탐지 방법론 제안
  • Gemini 기반 탐지기가 85.65%의 Macro-F1 점수로 SOTA 달성
  • 텍스트 기반 베이스라인 및 RoBERTa 모델의 성능을 상회
  • 이미지로부터 의미, 이미지(imagery), 감정 정보를 통합하여 판단력 강화

이전의 탐지 연구들은 LLM (Large Language Models)이 탐지기로서 효과적으로 사용될 수 없음을 보여주었으나, 이러한 연구들은 현대 중국 시를 다루지 않았습니다. 더욱이, 현대 중국 시를 탐지하는 데 있어 LLM의 성능을 탐구한 관련 연구는 없었습니다. 본 논문은 현대 중국 시의 탐지기로서 LLM의 성능을 평가 및 향상시키며, 이미지-의미론적 가이드 기반의 시 탐지 방법을 제안합니다. 전통적인 탐지 방식과 비교하여, 우리의 방법은 시의 내용을 반영하는 이미지를 혁신적으로 결합합니다. 예시 중심 접근 방식(example-driven approaches)을 통해, 우리의 방법은 이미지로부터 의미, 이미지(imagery), 감정 등의 정보를 효과적으로 통합한 후, 시 텍스트와 상호 보완적인 판단을 형성합니다. 실험 결과에 따르면, 우리의 방법에 기반한 LLM 탐지기는 평문(plain text) 기반의 베이스라인 탐지기보다 성능이 뛰어나며, 심지어 가장 성능이 좋은 전통적 탐지기인 RoBERTa를 능가합니다. 우리의 방법을 사용한 Gemini 탐지기는 85.65%의 Macro-F1 점수를 달성하여 최첨단(state-of-the-art) 수준에 도달했습니다. 다양한 LLM 생성 데이터에 대한 여러 LLM 탐지기들의 성능 향상은 우리 방법의 유효성을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0