본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 12:04

제5회 다국어 상호 참조 해결 (Multilingual Coreference Resolution) 공유 과제 결과: 장거리 엔티티

요약

제5회 다국어 상호 참조 해결(Multilingual Coreference Resolution) 공유 과제는 문장 간 거리가 먼 '장거리 엔티티' 식별에 초점을 맞추어 진행되었습니다. CorefUD v1.4를 통해 19개 언어로 범위를 확장하였으며, 총 10개의 시스템이 참여하여 성능을 겨루었습니다. 결과적으로 전통적인 방식이 우위를 점했으나, LLM 기반 접근 방식이 상당한 잠재력을 보여주며 향후 기술적 변화를 예고했습니다.

핵심 포인트

  • 장거리 엔티티(long-range entities) 식별을 위한 상호 참조 체인 해결에 집중
  • CorefUD v1.4를 활용하여 19개 언어 및 27개 데이터셋으로 언어적 범위 확장
  • LLM 기반 접근 방식(미세 조정 및 퓨샷)의 도입과 잠재력 확인
  • 현재까지는 전통적인 시스템이 성능 면에서 우위를 유지함

본 논문은 CODI-CRAC 2026 워크숍과 연계하여 개최된 제5회 다국어 상호 참조 해결 (Multilingual Coreference Resolution) 공유 과제 (Shared Task)에 대해 기술합니다. 이전 회차들을 바탕으로, 이번 과제는 참가자들이 언급 식별 (mention identification) 및 정체성 기반 상호 참조 클러스터링 (identity-based coreference clustering)이 가능한 시스템을 개발할 것을 요구했습니다. 2026년 버전은 특히 많은 단어와 문장에 걸쳐 상당한 거리를 가로지르는 상호 참조 체인 (coreferential chains)으로 정의되는 장거리 엔티티 (long-range entities)를 강조합니다. 본 과제는 5개의 새로운 데이터셋과 2개의 추가 언어를 통합함으로써 언어적 범위를 확장했습니다. 이러한 추가 사항은 19개 언어의 27개 데이터셋으로 구성된 조화된 다국어 컬렉션인 CorefUD 버전 1.4를 활용합니다. 총 10개의 시스템이 참여했으며, 여기에는 4개의 LLM 기반 접근 방식 (3개의 미세 조정 (fine-tuned) 모델과 1개의 퓨샷 (few-shot) 접근 방식)이 포함되었습니다. 전통적인 시스템들이 여전히 우위를 유지하고 있었으나, LLM은 상당한 잠재력을 보여주었으며, 이는 향후 회차에서 기존의 접근 방식들을 곧 위협할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0