LJP가 보지 못하는 사례들: 더욱 완전한 형사 책임 평가를 위한 검찰 결정 예측
요약
기존 법적 판결 예측(LJP)의 한계를 극복하기 위해 검찰의 기소 및 불기소 결정을 예측하는 새로운 태스크인 PDP를 제안합니다. 4,630개의 실제 사례를 포함한 PDP-Bench를 구축하였으며, LLM이 기존 LJP보다 PDP에서 현저히 낮은 성능을 보임을 입증했습니다.
핵심 포인트
- 기존 LJP의 사각지대인 불기소 사례를 포함한 PDP 태스크 제안
- 4,630개 실제 사례 기반의 PDP-Bench 벤치마크 구축
- LLM이 PDP 태스크에서 LJP 대비 낮은 성능을 보임 확인
- 단순 결과 보상 기반 RLVR로는 PDP 판별력 확보가 어려움
법적 판결 예측 (Legal Judgment Prediction, LJP)은 형사 법률 영역에서 AI를 평가하기 위한 핵심 벤치마크가 되었으나, 이는 이미 검찰의 검토를 거쳐 정식 기소된 형사 사건만을 다룹니다. 그 결과, LJP는 증거 불충분, 죄가 안 됨, 또는 기소유예와 관련된 사례들을 간과함으로써 형사 책임을 평가하는 데 있어 상당한 사각지대를 남깁니다. 이러한 공백을 메우기 위해, 우리는 검찰 검토를 중심으로 구축된 최초의 법률 AI 태스크인 extbf{검찰 결정 예측 (Prosecution Decision Prediction, PDP)}을 제안합니다. PDP는 각 사건을 기소 또는 세 가지의 불기소 결정 중 하나로 분류하며, 증거 평가 (evidence evaluation), 법적 포섭 (legal subsumption), 그리고 가치 기반의 재량 (value-based discretion) 측면에서 법률 AI의 역량을 반영합니다. 나아가 우리는 190개 혐의에 걸쳐 4,630개의 실제 중국 검찰 결정을 포함하는 벤치마크인 extbf{PDP-Bench}를 구축했습니다. 광범위한 실험 결과, 최첨단 거대언어모델 (LLMs)은 LJP보다 PDP에서 현저히 낮은 성능을 보였으며, 주요 강화 경로 (enhancement routes)들 또한 이 격차를 줄이는 데 실패했습니다. 또한, 통제된 RLVR (Reinforcement Learning from Verifiable Rewards) 개입을 통해, 단순한 결과 보상 (outcome rewards)만으로는 일반화 가능한 PDP 판별력을 생성할 수 없음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기