arXiv논문2026. 06. 15. 11:22

DLawBench: 다회차 법률 상담을 통한 LLM 평가

요약

다회차 상호작용을 통한 LLM의 법률 상담 능력을 평가하기 위한 새로운 벤치마크인 DLawBench를 소개합니다. 실제 사례를 바탕으로 네 가지 의뢰인 유형을 정의하여 모델의 법률적 추론 및 전략적 정보 추출 능력을 진단합니다.

핵심 포인트

다회차 상호작용 중심의 법률 상담 진단 벤치마크 DLawBench 제안
협력형, 의존형, 철회형, 대립형 등 4가지 의뢰인 행동 유형 정의
중국 및 미국 법률 기반의 방대한 사례와 루브릭 데이터셋 구축
LLM의 법률 상담 시 아첨 현상 및 성능 저하 역설 발견

변호사와 의뢰인 간의 상담은 법률 서비스의 중요한 시작점입니다. 효과적인 법률 지원은 의뢰인의 이익을 가장 잘 보호할 수 있는 전략을 수립하기 위해, 의뢰인으로부터 충분하고 진실된 정보를 이끌어내는 것에 달려 있습니다. 이 작업은 대규모 언어 모델 (LLMs)이 강력한 법률적 추론 (Legal Reasoning)을 수행할 뿐만 아니라, 다회차 상호작용 (Multi-turn Interactions)을 통해 중요한 사실을 전략적으로 이끌어내고 다양한 성격의 의뢰인을 효과적으로 안내할 것을 요구합니다. 그러나 기존의 법률 벤치마크 (Benchmarks)들은 이러한 상호작용 능력을 간과하고 있습니다. 이러한 공백을 메우기 위해, 우리는 실제 법률 상담을 위한 진단용 벤치마크인 DLawBench를 소개합니다. 현실적인 의뢰인 행동을 바탕으로, 우리는 변호사-의뢰인 상호작용을 협력형 (Cooperative), 의존형 (Dependent), 철회형 (Withdrawn), 대립형 (Adversarial)의 네 가지 유형으로 정의합니다. 실제 사건에 기반한 대화문을 사용하여, DLawBench는 LLMs가 현실적인 조건 하에서 법률 상담을 효과적으로 수행할 수 있는지 평가합니다. DLawBench는 중국 및 미국 법률에 기반한 461개의 사례, 5,532개의 쌍을 이룬 사실 항목 (Fact Entries), 3,411개의 질문 루브릭 (Inquiry Rubrics), 3,348개의 쟁점 해결 루브릭 (Issue-resolution Rubrics)으로 구성되며, 26개의 대표적인 LLMs를 평가합니다. 체계적인 실험 결과 상당한 개선 여지가 있음을 보여줍니다. 가장 성능이 뛰어난 모델인 GPT-5.5는 상담 기반 법률 추론 (Consultation-grounded Legal Reasoning)에서 0.562만을 기록했습니다. 더 중요한 점은, DLawBench가 법률 상담에서의 아첨 (Sycophancy) 현상과 더불어, 모델들이 의뢰인에게 가이드가 가장 절실한 순간에 오히려 성능이 저하되는 역설 (Paradox)을 드러냈다는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

DLawBench: 다회차 법률 상담을 통한 LLM 평가

요약

핵심 포인트

댓글