Svarna: 현대 그리스어를 위한 오픈 코퍼스 워크벤치 (Open Corpus Workbench)

본 논문은 현대 그리스어를 위한 무료 오픈 소스 웹 기반 코퍼스 워크벤치(corpus workbench)인 Svarna를 소개합니다. Svarna는 다양한 레지스터(register)를 다루는 5개의 데이터베이스—제도적, 문학적, 방언적, 소셜 미디어 및 역사적 데이터베이스—를 통합하여 총 5억 7백만 개 이상의 단어와 약 2,900만 개의 문장을 제공합니다. 이 플랫폼은 그리스어 기술 분야의 만성적인 공백 문제를 해결합니다. 다양한 코퍼스 자원이 존재하지만, 이들은 서로 다른 플랫폼에 흩어져 있으며, 많은 경우 기관 접근이 제한되거나 더 이상 온라인에서 사용할 수 없습니다. Svarna는 이러한 자원들을 로그인, 설치 또는 전문적인 교육 없이 사용할 수 있는 단일 인터페이스로 통합합니다. 이 시스템은 KWIC(Key Word In Context) 마킹 기능을 갖춘 컨코던서(concordancer), 레지스터별 정규화(normalization)를 포함한 빈도 분석(frequency analysis), 상호 정보량(mutual information)을 이용한 연어 추출(collocation extraction), 분포 프로필을 제공하는 93개의 그리스어 담화 표지(discourse markers) 사전, n-gram, 변이형(variants) 및 연어 네트워크(collocation networks)를 포함한 텍스트 수준 분석 도구, 로그 비율(log-ratio)을 이용한 레지스터 비교, 정규 표현식(regular expression) 검색, 그리고 화용론적 주석(pragmatic annotation) 및 자유 연구 모드를 위한 선택적 LLM 레이어를 제공합니다. 이 플랫폼은 FastAPI 백엔드를 통해 제공되는 SQLite FTS5 전문 검색 인덱스(full-text indexes)를 기반으로 구축되었으며, Azure 상에서 Docker 컨테이너로 배포되고 MIT 라이선스 하에 공개됩니다. 소스 코드, 빌드 스크립트 및 배포 구성은 GitHub에서 공개적으로 사용할 수 있습니다. 사용자는 자신만의 코퍼스를 추가하고 자신만의 인스턴스를 배포할 수 있습니다. 본 문서는 시스템 설계, 코퍼스 구조, 그리고 플랫폼이 지원하는 다양한 쿼리를 보여주는 사용 사례를 설명합니다. Svarna는 가용한 데이터를 탐색하는 첫 번째 단계 역할을 하며, 향후 더욱 포괄적인 연구를 위한 토대를 마련할 것으로 기대됩니다.

Insights

Svarna: 현대 그리스어를 위한 오픈 코퍼스 워크벤치 (Open Corpus Workbench)

요약

핵심 포인트

댓글

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화

TrajLoc: 다중 객체 모션 제어를 위한 궤적 주의 집중 기반 위치 지정 (Trajectory-Attention Localization)

World from Motion: 단안 비디오로부터의 생성적 동적 가우시안 재구성 (Generative Dynamic Gaussian

AI가 당신의 시각화를 아름답게 만들 수 있을까요? 허용 가능한 미적 변경에 대한 전문가 판단

비정상 열전달에서의 Lagrangian 열 수송 경로 및 밀도 구조 시각화