Svarna: 현대 그리스어를 위한 오픈 코퍼스 워크벤치 (Open Corpus Workbench)
요약
현대 그리스어를 위한 오픈 소스 웹 기반 코퍼스 워크벤치인 Svarna를 소개합니다. 5억 개 이상의 단어를 포함한 5개의 데이터베이스를 통합하여, 로그인 없이도 다양한 언어학적 분석 도구를 제공합니다.
핵심 포인트
- 5억 7백만 개 이상의 단어와 2,900만 개 문장을 포함한 통합 데이터베이스 제공
- KWIC, 빈도 분석, 연어 추출 등 강력한 언어학적 분석 도구 탑재
- FastAPI, SQLite FTS5, Docker 기반의 오픈 소스 아키텍처
- LLM 레이어를 통한 화용론적 주석 및 자유 연구 모드 지원
본 논문은 현대 그리스어를 위한 무료 오픈 소스 웹 기반 코퍼스 워크벤치(corpus workbench)인 Svarna를 소개합니다. Svarna는 다양한 레지스터(register)를 다루는 5개의 데이터베이스—제도적, 문학적, 방언적, 소셜 미디어 및 역사적 데이터베이스—를 통합하여 총 5억 7백만 개 이상의 단어와 약 2,900만 개의 문장을 제공합니다. 이 플랫폼은 그리스어 기술 분야의 만성적인 공백 문제를 해결합니다. 다양한 코퍼스 자원이 존재하지만, 이들은 서로 다른 플랫폼에 흩어져 있으며, 많은 경우 기관 접근이 제한되거나 더 이상 온라인에서 사용할 수 없습니다. Svarna는 이러한 자원들을 로그인, 설치 또는 전문적인 교육 없이 사용할 수 있는 단일 인터페이스로 통합합니다. 이 시스템은 KWIC(Key Word In Context) 마킹 기능을 갖춘 컨코던서(concordancer), 레지스터별 정규화(normalization)를 포함한 빈도 분석(frequency analysis), 상호 정보량(mutual information)을 이용한 연어 추출(collocation extraction), 분포 프로필을 제공하는 93개의 그리스어 담화 표지(discourse markers) 사전, n-gram, 변이형(variants) 및 연어 네트워크(collocation networks)를 포함한 텍스트 수준 분석 도구, 로그 비율(log-ratio)을 이용한 레지스터 비교, 정규 표현식(regular expression) 검색, 그리고 화용론적 주석(pragmatic annotation) 및 자유 연구 모드를 위한 선택적 LLM 레이어를 제공합니다. 이 플랫폼은 FastAPI 백엔드를 통해 제공되는 SQLite FTS5 전문 검색 인덱스(full-text indexes)를 기반으로 구축되었으며, Azure 상에서 Docker 컨테이너로 배포되고 MIT 라이선스 하에 공개됩니다. 소스 코드, 빌드 스크립트 및 배포 구성은 GitHub에서 공개적으로 사용할 수 있습니다. 사용자는 자신만의 코퍼스를 추가하고 자신만의 인스턴스를 배포할 수 있습니다. 본 문서는 시스템 설계, 코퍼스 구조, 그리고 플랫폼이 지원하는 다양한 쿼리를 보여주는 사용 사례를 설명합니다. Svarna는 가용한 데이터를 탐색하는 첫 번째 단계 역할을 하며, 향후 더욱 포괄적인 연구를 위한 토대를 마련할 것으로 기대됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기