LAUKIN: 다중 관할권 공법 계약 데이터셋
요약
LAUKIN은 호주, 영국, 인도 세 관할권의 법적 동등성을 비교한 새로운 데이터셋입니다. 이 데이터셋은 8가지 계약 유형의 204개 계약에서 추출된 14,727개의 조항 쌍을 포함하며, 수동 레이블링된 3,000개의 샘플로 구성되어 있습니다. 연구진은 이를 활용하여 다중 관할권 법률 NLP 모델의 성능을 평가하고 새로운 벤치마크를 제시했습니다.
핵심 포인트
- 다국적 계약 검토에 필요한 LAUKIN 데이터셋 공개
- 호주, 영국, 인도 세 관할권 간 조항 동등성 비교 가능
- 총 14,727개 조항 쌍 중 3,000개가 수동 레이블링됨
다국적 기업들은 점점 더 관할권을 넘나드는 계약 검토를 필요로 하지만, 기존의 법률 자연어 처리(NLP) 데이터셋은 대부분 단일 관할권에 국한되어 있습니다. 우리는 불리언 법적 동등성으로 레이블링된 조항 쌍(AU-UK, UK-IN, IN-AU) 데이터셋인 LAUKIN (Legal equivalence dataset of Australia, UK, and India)을 소개합니다. 우리는 초기 조항 쌍 매핑을 구축하기 위해 새로운 다단계 검색 및 재순위 지정 파이프라인을 개발했으며, 그중 일부 조항 쌍은 법률 전문가에 의해 각각 '동등함(Equivalent)' 또는 '동등하지 않음(Not Equivalent)'으로 주석 처리되었습니다. 이 데이터셋은 8가지 계약 유형의 204개 계약에서 추출된 14,727개의 조항 쌍을 포함하며, 그중 3,000개가 수동으로 레이블링되었는데, 이는 학습용(train) 900개, 개발용(dev) 600개, 테스트용(test) 1,500개로 구성됩니다. 우리는 4가지 기법에 걸쳐 12개의 모델을 평가했으며, 최고 거시-F1 점수 65.11%를 달성하여 LAUKIN을 도전적인 벤치마크로 확립했습니다. 결과는 공유된 법적 유산에도 불구하고, 각 관할권 간의 작성 관행이 상당히 다르다는 것을 보여주며, 이는 관할권을 넘나드는 동등성 분류가 간단하지 않음을 의미합니다. 또한 LAUKIN은 법률 NLP 분야의 향후 준지도 학습 연구를 지원하기 위해 11,727개의 레이블링되지 않은 학습 쌍을 포함하고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기