arXiv논문2026. 06. 18. 11:10

TW-LegalBench: 대만 법률 이해도 측정

요약

대만 법률 시스템에 특화된 LLM 성능 측정 벤치마크인 TW-LegalBench를 제안합니다. 객관식, 주관식 에세이, 판결 예측 등 세 가지 유형의 과제를 통해 13개 모델을 평가했습니다.

핵심 포인트

대만 법률 체계에 특화된 새로운 벤치마크 TW-LegalBench 제시
객관식, 주관식 에세이, 법적 판결 예측의 세 가지 작업 유형 구성
최고 성능 모델은 변호사 합격 기준은 넘으나 판사/검사 기준에는 미달
모델들이 법률 조항을 정확하게 인용하는 데 어려움을 겪음 확인

대규모 언어 모델 (LLMs)은 다양한 작업에서 인상적인 능력을 보여주었으나, 특정 관할 구역의 법률적 추론 (legal reasoning)에 대한 성능은 여전히 미개척 분야로 남아 있습니다. 우리는 영어 소스에 집중하는 관습법 (common-law) 벤치마크와 간체 중국어 소스에 집중하는 대륙법 (civil-law) 벤치마크 사이의 공백을 메우기 위해, 대만 법률 시스템의 풍부한 공개 공식 코퍼스 (corpus)를 활용한 TW-LegalBench를 제시합니다. TW-LegalBench는 세 가지 작업 유형으로 구성됩니다: (1) 18개 전문 분야의 5개년 공식 시험을 아우르는 16,000개 이상의 객관식 질문 (MCQs); (2) 공식 채점 기준표 (scoring rubrics)가 포함된 법률 전문가 시험의 117개 주관식 에세이 질문 (OEQs); (3) 수백 개의 범죄 카테고리를 다루는 14,000개 이상의 법적 판결 예측 (LJP) 사례입니다. 우리는 13개의 LLM을 대상으로 MCQs에 대한 정확도 (accuracy), OEQs를 위한 채점 기준표 기반의 분해된 LLM-as-Judge 프레임워크, 그리고 LJP를 위한 양형 정확도 및 법령 인용 (statute citation) 지표를 사용하여 평가합니다. 연구 결과, 최고 성능을 보이는 모델들은 자격 있는 변호사의 합격 기준(합격률: 11%)은 초과하지만, 판사와 검사의 기준(합격률: 1~2%)에는 미치지 못하는 것으로 나타났습니다. LJP의 경우, 모델들이 합리적인 판결 유형 정확도와 양형 예측 능력을 보여주었으나, 정확한 법률 조항을 인용하는 데에는 어려움을 겪었습니다. 이러한 결과는 LLM의 자격 시험 성능이 인간 수준에 근접함에도 불구하고, 신뢰할 수 있는 법률 텍스트 생성은 여전히 LLM에게 도전적인 과제임을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TW-LegalBench: 대만 법률 이해도 측정

요약

핵심 포인트

댓글