LexRubric: 개방형 법률 과업을 위한 루브릭 기반 진단 벤치마크
요약
LLM의 개방형 법률 응답 신뢰성을 평가하기 위한 루브릭 기반 벤치마크인 LexRubric을 소개합니다. 649개의 법률 인스턴스와 12,337개의 세밀한 채점 기준을 통해 모델의 오류 원인을 정밀하게 진단합니다.
핵심 포인트
- 법률 상담 및 사법 시험 기반의 649개 인스턴스 포함
- 12,337개의 원자적 채점 기준을 통한 정밀 진단 가능
- 14가지 법률 시나리오 및 6차원 평가 프레임워크 제공
- 최신 18개 LLM 평가를 통해 법률 과업의 난이도 입증
대규모 언어 모델 (LLMs)이 실제 법률 과업에 점점 더 많이 적용됨에 따라, 모델의 개방형 법률 응답에 대한 신뢰성을 평가하는 것이 필수적이 되었습니다. 이러한 과업들은 문맥에 민감한 답변을 요구하며 오류의 허용 범위가 매우 좁기 때문에, 응답 품질 실패의 구체적인 원인을 식별할 수 있는 세밀하고 진단적인 평가가 필요합니다. 우리는 개방형 중국어 법률 과업을 평가하기 위한 루브릭 (rubric) 기반 벤치마크인 LexRubric을 소개합니다. LexRubric은 법률 상담 및 사법 시험에서 추출한 649개의 인스턴스를 포함하고 있으며, 이는 일상적인 법률 요구와 전문적인 법률 추론을 모두 반영하며 14가지 법률 시나리오를 다룹니다. 또한, 통합된 6차원 프레임워크 아래 조직된 12,337개의 전문가 작성 원자적 채점 기준 (atomic scoring criteria)을 포함하여, 과업 및 평가 차원 전반에 걸친 정확한 평가와 진단 분석을 가능하게 합니다. 평가의 신뢰성을 검증하기 위해, 우리는 여러 판사 모델 (judge models)을 테스트하고 모델 기반 판단을 인간의 판단과 비교했습니다. 나아가 LexRubric을 통해 최근의 18개 일반 및 법률 도메인 LLMs를 평가했습니다. 결과에 따르면, 서로 다른 모델들이 뚜렷하게 구분되는 능력 프로필을 보여주며, 개방형 법률 질문은 현재의 LLMs에게 여전히 도전적인 과제로 남아 있음을 보여줍니다. 데이터는 다음에서 확인할 수 있습니다: https://github.com/foggpoy/LexRubric.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기