ReLeVAnT: 정확한 법적 텍스트 분류를 위한 관련성 어휘 벡터
요약
본 연구는 법률 문서의 이진 분류를 위한 ReLeVAnT라는 프레임워크를 제안하며, 이는 클래스 간 문서의 구별적 특징을 활용하는 데 중점을 둡니다. ReLeVAnT는 n-gram 처리, 대조적 점수 매칭(contrastive score matching), 그리고 얕은 신경망을 결합하여 법률 문서 분류 작업을 수행합니다. 이 프레임워크는 LexGLUE 데이터셋에서 높은 정확도와 F1 점수를 달성하며, 기존 방법들이 의존하던 복잡한 메타데이터나 광범위한 컴퓨팅 파워 없이 신속하고 신뢰성 있게 작동함을 보여줍니다.
핵심 포인트
- 법률 문서 분류는 소송 신청서 작성, 사건 일지 요약 등 다양한 중요한 응용 분야를 가집니다.
- 기존의 법률 문서 분류 방법들은 메타데이터나 대규모 컴퓨팅 파워에 크게 의존하는 경향이 있습니다.
- 제안된 ReLeVAnT 프레임워크는 클래스 간 구별적 특징을 활용하여 이진 분류를 수행합니다.
- ReLeVAnT는 n-gram 처리, 대조적 점수 매칭, 얕은 신경망을 결합하여 효율성과 높은 성능(LexGLUE에서 99.3% 정확도)을 입증했습니다.
비정형 데이터 코퍼스에서 법률 문서의 분류는 다운스트림 작업에서 여러 가지 중요한 응용 분야를 가지고 있습니다. 법원 제출문과 관련된 문서는 소송 신청서 작성, 메모 및 개요 작성과 같은 사용 사례뿐만 아니라, 사건 일지 요약, 검색 시스템, 그리고 학습 데이터 큐레이션과 같은 작업에서도 핵심적인 역할을 합니다. 현재 방법들은 제공된 메타데이터, LLM에서 추출한 메타데이터, 또는 다중 모드 방법을 기반으로 분류합니다. 이러한 방법들은 구조화된 데이터, 메타데이터 및 광범위한 컴퓨팅 파워에 의존합니다. 본 연구는 클래스 간 문서의 구별적 특징을 활용하는 관점에서 이 작업을 접근합니다. 저자들은 ReLeVAnT라는 법률 문서 이진 분류를 위한 프레임워크를 제안합니다. ReLeVAnT는 n-gram 처리, 대조적 점수 매칭 (contrastive score matching), 그리고 얕은 신경망 (shallow neural network) 을 구별적 분류의 주요 동력으로 활용합니다. 이 프레임워크는 코퍼스 당 한 번의 키워드 추출을 수행한 후, 얕인 분류기를 사용하여 LexGLUE 데이터셋에서 99.3% 의 정확도와 98.7% 의 F1 점수로 문서들을 신속하고 신뢰성 있게 분류합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기