LOCUS를 통한 법률의 자유화: 미국 지방 조례 코퍼스 (A Local Ordinance Corpus for the United States)
요약
미국 지방 조례를 포괄적으로 다루는 기계 판독 가능 코퍼스인 LOCUS를 소개합니다. 9,239개 시 및 카운티의 법전을 포함하며, OCR 기술을 통해 파편화된 법률 데이터를 통합하여 법률 AI 연구를 지원합니다.
핵심 포인트
- 미국 지방 조례를 위한 대규모 기계 판독 가능 코퍼스 LOCUS 공개
- 9,239개 시/카운티 법전 및 2,309개 카운티 조화 접근 계층 포함
- OCR을 활용하여 다양한 문서 형식을 데이터화하여 접근성 향상
- ModernBERT 기반 분류기 및 점수 산정기를 통한 법률 분석 지원
법률 AI (Legal AI)의 발전은 대규모의 권위 있는 법률 텍스트에 대한 접근성에 점점 더 의존하고 있습니다. 그러나 미국 법의 가장 중대한 계층 중 하나인 지방 조례 (local ordinances)는 기존의 기계 판독 가능 코퍼스 (machine-readable corpora)에서 여전히 크게 결여되어 있습니다. 지방 법전 (Local codes)은 용도 지역제 (zoning), 주거 (housing), 사업 면허 (business licensing), 공중 보건 (public health), 소음 (noise), 동물 관리 (animal control) 및 기타 많은 일상적 규제 영역을 관할하지만, 대량 연구 접근보다는 인간의 브라우징을 위해 설계된 벤더 플랫폼들에 파편화되어 있습니다. 우리는 미국 시 및 카운티 조례 법전을 위한 포괄적인 코퍼스이자 카운티 조화 접근 계층 (county-harmonized access layer)인 LOCUS - 미국 지방 조례 코퍼스 (the Local Ordinance Corpus for the United States)를 소개합니다. 연구자들에게 공개 가능한 원시 코퍼스 (raw corpus)는 공개적으로 사용 가능한 거의 모든 시 및 카운티 조례 법전을 나타냅니다. 결과물인 원시 코퍼스는 9,239개 시 및 카운티의 법전을 포함합니다. 더 작은 규모의 카운티 조화 LOCUS 접근 계층은 미국 3,144개 카운티 중 가장 큰 2,309개 카운티를 커버하며, 이는 인구의 대다수를 차지합니다. 우리는 법률이 공공 자원이 되는 것을 막아왔던 무수히 많은 문서 형식을 처리하기 위해 OCR을 사용합니다. 우리는 재현성 (reproducibility), 다운스트림 법률 AI 연구 (downstream legal AI research), 그리고 지방법에 대한 기계 판독 가능 접근성의 점진적 확장을 지원하기 위해 커버리지 메타데이터와 함께 코퍼스를 공개합니다. 우리는 이전에는 이 정도 규모로 연구되지 않았던 불투명성 (opacity) 및 온정주의 (paternalism)와 같은 여러 차원에서 미국 지방법 분석을 용이하게 하기 위해 ModernBERT 기반 분류기 (classifiers) 및 점수 산정기 (scorers) 모음을 학습시킵니다. LOCUS-v1 및 그 파생 모델은 다음에서 확인할 수 있습니다: https://huggingface.co/datasets/LocalLaws/LOCUS-v1
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기