본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 24. 11:51

Prague Dependency Treebank -- Consolidated 2.0: 복잡한 주석 체계의 강화

요약

30년간의 연구를 통해 완성된 체코어 언어 리소스인 Prague Dependency Treebank Consolidated 2.0(PDT-C 2.0)을 공개합니다. 약 400만 토큰 규모의 이 코퍼스는 상호 참조와 담화 관계를 포함한 복잡한 언어 계층을 체계적으로 주석화하여 NLP 연구에 기여합니다.

핵심 포인트

  • 400만 토큰 규모의 균일하고 일관된 체코어 언어 리소스 제공
  • 상호 참조 및 담화 관계를 포함한 고도화된 의미 표현 주석
  • 전통적 및 신규 NLP 도구의 성능 비교 및 변환 연구에 활용 가능
  • CC BY-NC-SA 라이선스 하에 코퍼스 및 학습된 파서 공개

Prague Dependency Treebank 프레임워크는 여러 유형의 문장 간 현상(inter-sentential phenomena), 특히 상호 참조(coreference) 및 담화 관계(discourse relations)를 포함한 의미 표현(meaning representation)을 비롯하여 언어의 다양한 계층을 체계적으로 포함하고 연결하려는 시도 측면에서 독보적입니다. 우리는 이 리소스의 지속적인 개발을 위한 거의 30년 동안의 프로젝트를 마무리하며, 균일하고 일관되게 주석이 달린(annotated), 장르가 다양화된, 약 400만 토큰 규모의 체코어 언어 리소스와 이에 수반되는 완전히 호환 가능한 어휘집(lexicons)을 담은 두 번째 통합 버전(PDT-C 2.0)을 선보입니다. 지속적인 언어학적 연구 외에도, 풍부하게 언어학적으로 주석이 달린 이 코퍼스(corpus)는 전통적 및 신규 NLP 도구의 발전에 대한 국제적 비교뿐만 아니라 다른 형식(formalisms)으로의 변환에도 널리 사용됩니다. 코퍼스와 학습된 파서(parsers)는 CC BY-NC-SA 라이선스 하에 사용할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0