arXiv논문2026. 05. 29. 10:50

Multi-Legal-Bench: 관할권, 언어 및 법적 전통에 걸친 LLM의 법률 추론 평가

요약

다양한 관할권과 언어를 아우르는 최초의 교차 언어 법률 벤치마크인 Multi-Legal-Bench를 소개합니다. 6개국 법원 판결문을 활용해 5가지 법률 작업을 정의하고, 다양한 LLM의 성능을 평가하여 언어적 근접성보다 레이블 정렬이 전이 품질에 더 중요하다는 점을 밝혀냈습니다.

핵심 포인트

6개국 4개 언어 가족을 포함한 최초의 교차 관할권 법률 벤치마크
법원 유형 분류 및 사건 결과 예측 등 5가지 핵심 작업 정의
교차 언어적 퓨샷 전이는 언어 가족보다 레이블 정렬에 더 큰 영향을 받음
토크나이저 효율성보다 모델 아키텍처와 사전 학습 데이터가 성능에 더 중요함

법률 자연어 처리 (Legal NLP) 벤치마크는 압도적으로 단일 언어를 평가하거나 관할권에 따라 근본적으로 다른 작업들을 통합하고 있어, 교차 언어적 (cross-lingual) 비교를 불가능하게 만듭니다. 우리는 6개국 (우크라이나, 프랑스, 네덜란드, 폴란드, 체코 공화국, 리투아니아), 4개의 언어 가족, 그리고 1억 3,400만 개의 법원 판결문을 대상으로 동일한 작업을 평가하는 최초의 관할권 교차 법률 벤치마크인 Multi-Legal-Bench를 소개합니다. 이 벤치마크는 법원 유형 분류 (court-type classification), 판결 형태 분류 (judgment form classification), 사건 결과 예측 (case-outcome prediction), 법규 추출 (legal norm extraction), 원인 범주 예측 (cause category prediction)의 5가지 작업을 정의하며, 이를 국가 법원 등록부의 구조화된 메타데이터에 매핑하여 의도적으로 희소하게 구성된 5x6 작업-관할권 행렬 (30개 셀 중 20개 채워짐)을 형성합니다. 우리는 AWS Bedrock을 통해 7개의 프런티어 거대언어모델 (LLM)을 제로샷 (zero-shot) 및 3-샷 (3-shot) 프롬프팅으로 평가하였으며, 확장성 분석을 위해 4개의 추가적인 소형/중형 모델 (3-12B)을 사용했습니다. 우리의 연구 결과는 다음과 같습니다: (1) 우크라이나어에서 발견된 작업 의존적 퓨샷 (few-shot) 효과는 모든 관할권에서 재현됩니다; (2) 어떤 단일 모델도 언어 순위를 지배하지 않으며, 작업과 관할권 모두에 따라 순위가 변동됩니다; (3) 교차 언어적 퓨샷 전이 (cross-lingual few-shot transfer)는 언어적 근접성을 따르지 않습니다: UA->FR (로망스어군, -2.1 pp)이 UA->PL (슬라브어군, -13.7 pp)보다 더 잘 전이되며, 레이블 세트 정렬 (label-set alignment)이 언어 가족보다 전이 품질을 더 잘 예측합니다; (4) 토크나이저 비옥도 (tokenizer fertility)는 2.3배의 편차에도 불구하고 교차 언어 정확도를 유의미하게 예측하지 못하며 (r=-0.27, p=0.14), 이는 모델 아키텍처와 사전 학습 (pretraining) 데이터가 토크나이저 효율성보다 더 지배적임을 시사합니다. 우리는 모든 데이터, 프롬프트 및 모델 예측값을 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Multi-Legal-Bench: 관할권, 언어 및 법적 전통에 걸친 LLM의 법률 추론 평가

요약

핵심 포인트

댓글