arXiv논문2026. 06. 25. 11:28

Hlava Cor 및 Hlava AD 코퍼스 소개: 상호 참조(Coreference) 및 담화 관계(Discourse Relations)에서의

요약

체코어 텍스트의 상호 참조(Coreference) 및 담화 관계(Discourse Relations)를 분석하기 위한 두 개의 새로운 코퍼스를 소개합니다. 주석자 간의 불일치와 그 근거를 포함하여 텍스트 이해의 개인차와 모호성을 탐구합니다.

핵심 포인트

체코어 대상 상호 참조 및 담화 관계 코퍼스 제작
주석자 간 불일치와 선택 근거를 포함한 다중 주석 데이터 제공
자동 상호 참조 해결 모델의 한계와 인간의 해석 차이 분석
텍스트 일관성 이해에 대한 개인별 독해 전략 확인

담화 현상(discourse phenomena)에서의 주석자 불일치(annotator disagreement)에 관한 이전 연구들이 보여주었듯이, 텍text의 일관성(coherence)을 이해하는 방식은 개인마다 상당히 다릅니다. 이 현상을 탐구하기 위해, 우리는 체코어 텍스트에 대한 다중 주석(multiple annotations)과 함께 주석자들의 선택 근거를 설명하는 내용을 포함한 두 개의 코퍼스(corpora)를 제작했습니다. 첫 번째 코퍼스는 3명의 주석자가 병렬로 주석을 단 1,024개의 문맥(contexts)으로 구성됩니다. 이는 대명사(pronouns), 완전 명사구(full noun phrases), 그리고 환유적 부사구(anaphoric adverbials)를 포함한 다양한 텍스트 유형 및 문법적-의미적 범주 전반에 걸쳐 상호 참조(coreference) 식별의 차이를 포착합니다. 두 번째 코퍼스는 5명의 주석자가 병렬로 주석을 단 512개의 문맥으로 구성되며, 속성적(attributive) 및 비속성적(non-attributive) 구문에서의 담화 관계(discourse relations) 식별에 초점을 맞춥니다. 두 코퍼스 모두 약 60-65%의 유사한 주석자 간 일치도(inter-annotator agreement)를 달성했습니다. 상호 참조(coreference) 주석의 경우, 자동 상호 참조 해결(automatic coreference resolution) 모델이 불일치하는 사례에서 일치도가 낮아지는 경향이 있는데, 이는 모델이 불일치할 때 해당 사례들이 인간 주석자가 해석하기에 더 어렵거나 모호할 가능성이 높음을 시사합니다. 상호 참조(coreference)와 담화 관계(discourse relations) 모두에 대한 주석자들의 코멘트는 해석의 차이, 텍스트 이해에 대한 다양한 신뢰 수준, 그리고 개인별 독해 전략을 더욱 명확히 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Hlava Cor 및 Hlava AD 코퍼스 소개: 상호 참조(Coreference) 및 담화 관계(Discourse Relations)에서의

요약

핵심 포인트

댓글