본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 05:44

LegalCiteBench: 법률 언어 모델의 인용 신뢰성 평가

요약

본 논문은 대규모 언어 모델(LLMs)이 법률 분야에서 부정확한 인용이나 조작된 판례를 생성하는 심각한 문제를 다루며, 이를 평가하기 위해 LegalCiteBench라는 새로운 벤치마크를 소개합니다. 이 벤치마크는 실제 미국 사법 의견서 기반의 24K개 사례로 구성되어 있으며, 인용 검색, 완성, 오류 탐지 등 다섯 가지 핵심적인 인용 중심 작업을 포함합니다. 평가 결과, 현재 LLM들은 폐쇄형 환경에서 정확한 인용 복구에 어려움을 겪고 있으며, 대부분의 모델이 높은 오도성 답변율을 보이고 있어 법률 AI의 신뢰성 확보가 시급함을 보여줍니다.

핵심 포인트

  • LLMs는 법률 분야에서 부정확하거나 조작된 인용(hallucination)을 생성할 위험이 매우 높다.
  • LegalCiteBench는 실제 미국 사법 의견서를 기반으로 구축된, 인용 검색 및 검증에 특화된 새로운 평가 벤치마크이다.
  • 현재 LLM들은 폐쇄형 환경에서 정확한 인용 복구 능력이 현저히 부족하며, 대부분의 모델이 높은 오도성 답변율을 보인다.
  • 단순히 모델 규모를 키우거나 법률 도메인으로 사전 학습하는 것만으로는 인용 신뢰성 문제를 해결할 수 없다.

대규모 언어 모델(LLMs)은 법률 초안 작성 및 연구 워크플로우에 점점 더 통합되고 있으며, 여기서 부정확한 인용이나 조작된 판례는 심각한 전문적 피해를 야기할 수 있습니다. 기존의 법률 벤치마크는 주로 법규 해석, 계약 이해 또는 일반적인 법률 질의응답을 강조하지만, 외부 근거 없이 판례 권위를 제공하도록 요청받았을 때 모델이 그럴듯해 보이지만 실제로는 부정확한 인용이나 판례를 반환할 수 있는 핵심적인 영미법(common-law) 실패 모드를 직접적으로 연구하지는 않습니다. 본 논문에서는 법률 언어 모델의 폐쇄형(closed-book) 인용 복구, 인용 검증 및 판례 매칭을 연구하기 위한 벤치마크인 LegalCiteBench를 소개합니다. LegalCiteBench는 Case Law Access Project에서 수집한 1,000개의 실제 미국 사법 의견서로부터 구성된 약 24K개의 평가 사례를 포함하고 있습니다. 이 벤치마크는 인용 검색(citation retrieval), 인용 완성(citation completion), 인용 오류 탐지(citation error detection), 판례 매칭(case matching), 그리고 판례 검증 및 수정(case verification and correction)의 다섯 가지 인용 중심 작업들을 다룹니다. 평가된 21개 LLM 전반에 걸쳐, 정확한 인용 복구는 이러한 폐쇄형 설정에서 여전히 매우 어려운 과제입니다: 가장 강력한 모델들조차도 인용 검색 및 완성에서 7/100점 미만의 점수를 기록했습니다. 평가된 모델들 내에서는 규모(scale)와 법률 도메인 사전 학습이 제한적인 이득만을 제공할 뿐, 이러한 어려움을 해결하지 못합니다.

모델들은 또한 우리의 평가 프로토콜 하에서 구체적이지만 부정확하거나 중복도가 낮은 법률 자료(authorities)를 자주 제공했으며, 검색 중심 과제(retrieval-heavy tasks)의 경우 21개 모델 중 20개 모델에서 오도성 답변율(Misleading Answer Rates, MAR)이 94%를 초과했습니다. 프롬프트만 사용한 기권 실험(prompt-only abstention experiment)은 명시적인 불확실성 지침이 일부 자신감 있는 허위 생성(confident fabrication)을 줄이지만 인용의 정확성을 개선하지는 못한다는 것을 보여줍니다. LegalCiteBench는 외부 근거(external grounding)가 부재하거나, 불완전하거나, 우회되는 경우 법률 자료 생성 실패, 검증 행동 및 기권(abstention)을 연구하기 위한 진단 프레임워크로 설계되었습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0