본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 20:02

러시아 국내외 정책 연설의 연결된 멀티모달 데이터셋

요약

본 논문은 권위주의 정치 맥락에서 부족한 데이터 문제를 해결하기 위해 러시아 정부 고위 인사들의 공식 연설을 담은 멀티모달 데이터셋을 제안합니다. 이 데이터셋은 러시아어와 영어 텍스트, 관련 이미지, 메타데이터를 포함하며, 트랜스포머 기반 토픽 모델링을 통해 정제된 토픽 주석을 제공합니다. 이를 통해 정치 커뮤니케이션에 대한 다각적인 분석과 사회 과학 분야의 LLM 애플리케이션 연구를 지원합니다.

핵심 포인트

  • 러시아 크렘린 및 외무부 고위 인사의 공식 연설을 포함한 대규모 멀티모달 데이터셋 구축
  • 러시아어와 영어 텍스트의 정렬 및 이미지-연설 간의 고유 식별자를 통한 연결 제공
  • 트랜스포머 기반 멀티모달 토픽 모델링과 전문가 검증을 통한 토픽 주석 포함
  • 정치 커뮤니케이션의 시계열, 공간적 분석 및 사회 과학용 LLM 테스트베드로 활용 가능

본 논문은 권위주의 정치 맥락에서 사회적 텍스트 및 이미지 기반 데이터의 가용성이 지속적으로 부족한 문제를 해결하기 위해, 러시아 정부의 상호 연결된 멀티모달 (Multimodal) 정치 커뮤니케이션 데이터셋을 소개합니다. 이 데이터셋은 수십 년에 걸쳐 크렘린 (Kremlin) 및 러시아 외무부 (Russian Ministry of Foreign Affairs) 내 고위 인사들이 행한 공식 연설의 두 가지 대규모 코퍼스 (Corpora)로 구성됩니다. 각 연설에 대해 러시아어 및 영어 텍스트, 가능한 경우 관련 이미지와 캡션 (Caption), 그리고 날짜, 발언자, (지리적) 위치, 공식 정부 콘텐츠 태그 등을 포함한 조화된 메타데이터 (Metadata)를 제공합니다. 고유 식별자 (Unique identifiers)를 통해 이미지를 연설과 연결하고, 동일한 커뮤니케이션 텍스트의 러시아어 버전과 영어 버전을 정렬합니다. 나아가, 트랜스포머 기반 멀티모달 토픽 모델링 (Transformer-based multimodal topic modeling)을 통해 생성되고 러시아 정치 전문가에 의해 정제된, 연설 텍스트와 연설 이미지 모두에 대한 검증된 토픽 주석 (Topical annotations)을 통해 이러한 연결된 데이터셋을 더욱 확장했습니다. 결과물인 데이터 리소스는 (권위주의적) 정치 커뮤니케이션에 대한 멀티모달, 다국어, 시계열 및/또는 공간적 분석을 지원하며, 사회 과학 연구 및 정치 영역에서의 대규모 언어 모델 (LLM) 애플리케이션을 위한 가치 있는 테스트베드 (Testbed)를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0