러시아 국내외 정책 연설의 연결된 멀티모달 데이터셋

본 논문은 권위주의 정치 맥락에서 사회적 텍스트 및 이미지 기반 데이터의 가용성이 지속적으로 부족한 문제를 해결하기 위해, 러시아 정부의 상호 연결된 멀티모달 (Multimodal) 정치 커뮤니케이션 데이터셋을 소개합니다. 이 데이터셋은 수십 년에 걸쳐 크렘린 (Kremlin) 및 러시아 외무부 (Russian Ministry of Foreign Affairs) 내 고위 인사들이 행한 공식 연설의 두 가지 대규모 코퍼스 (Corpora)로 구성됩니다. 각 연설에 대해 러시아어 및 영어 텍스트, 가능한 경우 관련 이미지와 캡션 (Caption), 그리고 날짜, 발언자, (지리적) 위치, 공식 정부 콘텐츠 태그 등을 포함한 조화된 메타데이터 (Metadata)를 제공합니다. 고유 식별자 (Unique identifiers)를 통해 이미지를 연설과 연결하고, 동일한 커뮤니케이션 텍스트의 러시아어 버전과 영어 버전을 정렬합니다. 나아가, 트랜스포머 기반 멀티모달 토픽 모델링 (Transformer-based multimodal topic modeling)을 통해 생성되고 러시아 정치 전문가에 의해 정제된, 연설 텍스트와 연설 이미지 모두에 대한 검증된 토픽 주석 (Topical annotations)을 통해 이러한 연결된 데이터셋을 더욱 확장했습니다. 결과물인 데이터 리소스는 (권위주의적) 정치 커뮤니케이션에 대한 멀티모달, 다국어, 시계열 및/또는 공간적 분석을 지원하며, 사회 과학 연구 및 정치 영역에서의 대규모 언어 모델 (LLM) 애플리케이션을 위한 가치 있는 테스트베드 (Testbed)를 제공합니다.

Insights

러시아 국내외 정책 연설의 연결된 멀티모달 데이터셋

요약

핵심 포인트

댓글

Oatly, 2분기 매출 예상치 상회 및 전망치 개선에 주가 급등 (NASDAQ:OTLY)

우리는 14,085개의 x402 엔드포인트(Endpoints)를 카탈로그화했습니다. 그중 10,508개는 단 하나의 도메인에서 발생했습니다.

1st Source GAAP EPS $1.95로 $0.24 상회, 매출 $118M로 $3.87M 상회

Akamai Technologies의 다음 실적 발표에서 기대할 수 있는 것

Oatly, 2분기 매출 예상치 상회 및 전망치 개선에 주가 급등 (NASDAQ:OTLY)

우리는 14,085개의 x402 엔드포인트(Endpoints)를 카탈로그화했습니다. 그중 10,508개는 단 하나의 도메인에서 발생했습니다.

1st Source GAAP EPS $1.95로 $0.24 상회, 매출 $118M로 $3.87M 상회

Akamai Technologies의 다음 실적 발표에서 기대할 수 있는 것