LegalWorld: 법률 에이전트를 위한 생애 주기 상호작용 환경
요약
민사 소송의 인과적 의존성을 모델링하기 위해 개발된 생애 주기 상호작용 환경인 LegalWorld를 소개합니다. 기존 벤치마크의 한계를 넘어 5단계의 연결된 시나리오와 LongJud-Bench를 통해 법률 에이전트의 일관성과 능력을 평가합니다.
핵심 포인트
- 민사 소송의 단계별 인과적 의존성을 반영한 LegalWorld 환경 제시
- 75,309개의 중국 민사 판결문을 기반으로 한 상태 체인 모델링
- 에이전트의 장기적 일관성 평가를 위한 LongJud-Bench 구축
- 단일 백본 모델이 모든 법률 작업에서 우위를 점하지 못함을 확인
민사 소송은 본질적으로 생애 주기(life-cycle) 프로세스입니다. 변호사가 첫날 작성한 문서가 몇 달 후 재판에서 전개될 내용을 제한합니다. 그러나 기존의 법률 벤치마크(benchmarks)는 고립된 하위 작업들을 평가하며, 이전의 법률 에이전트 시뮬레이터들은 각 시나리오를 공유된 정답(ground truth)으로부터 매번 재초기화하여 단계 간의 인과적 의존성(causal dependencies)을 모델링하지 못하고 있습니다. 우리는 75,309개의 쌍을 이룬 중국 민사 판결문을 기반으로, 중국 민사 소송을 5개 단계(7개 하위 시나리오)의 인과적으로 연결된 상태 체인으로 모델링하는 생애 주기 상호작용 환경인 LegalWorld를 제시합니다. 우리는 각 분쟁이 전체 생애 주기 동안 일관성을 유지할 수 있도록 재사용 가능한 인프라(로컬 메모리, 글로벌 케이스 메모리, 기술/도구 라이브러리)를 결합했습니다. 이 환경을 바탕으로, 우리는 연결된 5개 단계 모두에서 에이전트의 능력을 평가하기 위한 LongJud-Bench를 구축했습니다. 법률 배경을 가진 217명의 평가자로부터 받은 18,992개의 평가는 LegalWorld의 궤적(trajectories)이 절차적으로 충실하고 역할 일관성이 있음을 확인해 줍니다. 또한 능력 수준의 교차 모델 평가(cross-model evaluation)를 통해, 종합 점수로는 드러낼 수 없는 날카로운 차이점들을 발견했으며, 상담, 문서 작성, 법정 변론 전반에 걸쳐 단일 백본(backbone) 모델이 우위를 점하지 못함을 확인했습니다. 상세한 리소스는 공개적으로 배포될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기