본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 12:37

Bundesrecht: 독일 법령 참조 처리를 위한 오픈 라이브러리 및 코퍼스

요약

독일 법령 참조를 파싱, 정규화, 해결할 수 있는 오픈 소스 라이브러리 및 코퍼스인 bundesrecht를 소개합니다. 이 리소스는 가공되지 않은 인용 문자열을 구조화된 객체로 매핑하며, 법령의 계층 구조를 보존하는 데이터셋을 함께 제공합니다.

핵심 포인트

  • 독일 법령 참조 처리를 위한 엔드 투 엔드 파이프라인 제공
  • 압축된 참조를 표준 형태로 확장 및 법령 조항과 연결
  • PyPI를 통해 사용 가능한 오픈 라이브러리 및 코퍼스
  • 정규화를 통한 인용 문자열의 안정적인 그룹화 성능 입증

법령 참조(Statutory references)는 법률 언어 이해의 핵심이지만, 압축적이고 가변적인 표면 형태(surface forms)로 나타나고, 여러 대상을 결합하거나, 특수 약어를 사용하며, 종종 하위 수준의 단위(lower-level units)를 가리키기 때문에 자동화된 처리가 어렵습니다. 기존의 독일어 관련 도구들은 법률 문서에서 참조를 파싱(parsing)하는 데 집중하거나, 인용이 명시된 경우 법령 텍스트에 접근하는 데 초점을 맞추고 있습니다. 본 논문에서는 독일 연방법의 구조화된 코퍼스(corpus)와 소프트웨어 라이브러리로 구성된 독일 법령 참조 처리를 위한 오픈 리소스인 bundesrecht를 소개합니다. 이 라이브러리는 독일 법령 참조를 파싱, 정규화(normalization) 및 해결(resolution)하며, 가공되지 않은 인용 문자열을 구조화된 객체로 매핑하고, 압축된 참조를 표준 형태(canonical forms)로 확장하며, 이를 법령 조항(statutory provisions)에 연결합니다. 함께 제공되는 데이터셋은 법률에서부터 매우 세밀한 하위 조항(subclauses)에 이르기까지 법령의 내부 계층 구조를 보존합니다. 우리는 엄격한 완전 일치(exact-match) 및 마이크로 정보 추출(micro information extraction) 지표를 사용하여 2,944개의 주석이 달린 독일 법률 참조를 대상으로 파서(parser)와 정규화기(normalizer)를 평가합니다. 나아가 표준 참조 중복 제거(canonical reference deduplication)를 평가하여, 정규화된 참조가 문자열 매칭(string matching)보다 실제 인용 표면 변체들을 훨씬 더 안정적으로 그룹화함을 보여줍니다. bundesrecht는 가공되지 않은 인용 문자열부터 해결된 법령 조항에 이르기까지, 독일 법령 참조 처리를 엔드 투 엔드(end-to-end) 파이프라인으로 다루는 최초의 오픈 리소스이며 PyPI에서 사용할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0