법률 분야를 위한 세밀한 주장 단위(Claim-level) RAG 벤치마크
요약
법률과 같이 높은 신뢰도가 요구되는 도메인에서 RAG 시스템의 환각 현상을 해결하기 위해, 기존 평가 프레임워크의 세밀함 부족 문제를 지적합니다. 이를 위해 전문가와 비전문가 모두를 아우르며 영어와 프랑스어를 지원하는 새로운 데이터셋인 ClaimRAG-LAW를 제안합니다. 이 데이터셋은 검색과 생성 성능을 넘어 주장 단위(claim-level)의 정밀한 분석을 가능하게 합니다.
핵심 포인트
- 기존 법률 RAG 평가 방식은 검색과 생성 성능을 세밀하게 분리하여 분석하는 데 한계가 있음
- ClaimRAG-LAW는 영어와 프랑스어를 지원하며 전문가 및 비전문가의 질문 유형을 모두 포함함
- 단순 답변의 정확도를 넘어 주장 단위(claim-level)의 세밀한 평가가 환각 완화에 필수적임
- 실제 법률 시나리오를 반영하여 RAG 시스템의 검색 및 생성 성능의 한계를 규명함
대규모 언어 모델 (LLMs)의 급격한 발전은 시맨틱 검색 (semantic search)을 사용자가 질문을 던지면 LLM이 답변을 생성하는 질의응답 (question-answering) 패러다임으로 변화시키고 있습니다. 법률과 같이 이해관계가 높은 (high-stake) 도메인에서는 생성된 답변의 환각 (hallucinations) 현상을 완화하기 위해 검색 증강 생성 (RAG, retrieval-augmented generation)이 흔히 사용됩니다. 그럼에도 불구하고, 기존 연구에 따르면 범용적이든 법률 특화적이든 RAG 시스템은 여전히 다양한 비율로 환각을 일으키며, 이는 세밀한 평가 (fine-grained evaluation)를 필수적으로 만듭니다. 이러한 필요성에도 불구하고, 기존의 법률 RAG 시스템 평가 프레임워크는 검색 (retrieval) 성능과 생성 (generation) 성능을 별도로 상세히 분석하는 데 필요한 세밀함 (granularity)이 부족합니다. 더욱이, 현재의 벤치마크들은 대부분 영어로만 구성되어 있고 법률 전문가의 질의에 집중되어 있어, 비전문가의 요구사항을 간과하고 있습니다. 우리는 프랑스어와 영어를 지원하고, 전문가와 비전문가 모두를 대상으로 하며, 실제 시나리오를 반영하는 다양한 질문 유형을 포함하는 법률 RAG를 위한 포괄적인 데이터셋인 ClaimRAG-LAW를 소개합니다. 나아가 우리는 최신 법률 RAG 시스템에 세밀한 평가 프레임워크를 적용하여, 법률 도메인에서의 검색, 생성 및 주장 단위 (claim-level) 분석의 한계를 밝혀냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기