법률 분야를 위한 세밀한 주장 단위(Claim-level) RAG 벤치마크

대규모 언어 모델 (LLMs)의 급격한 발전은 시맨틱 검색 (semantic search)을 사용자가 질문을 던지면 LLM이 답변을 생성하는 질의응답 (question-answering) 패러다임으로 변화시키고 있습니다. 법률과 같이 이해관계가 높은 (high-stake) 도메인에서는 생성된 답변의 환각 (hallucinations) 현상을 완화하기 위해 검색 증강 생성 (RAG, retrieval-augmented generation)이 흔히 사용됩니다. 그럼에도 불구하고, 기존 연구에 따르면 범용적이든 법률 특화적이든 RAG 시스템은 여전히 다양한 비율로 환각을 일으키며, 이는 세밀한 평가 (fine-grained evaluation)를 필수적으로 만듭니다. 이러한 필요성에도 불구하고, 기존의 법률 RAG 시스템 평가 프레임워크는 검색 (retrieval) 성능과 생성 (generation) 성능을 별도로 상세히 분석하는 데 필요한 세밀함 (granularity)이 부족합니다. 더욱이, 현재의 벤치마크들은 대부분 영어로만 구성되어 있고 법률 전문가의 질의에 집중되어 있어, 비전문가의 요구사항을 간과하고 있습니다. 우리는 프랑스어와 영어를 지원하고, 전문가와 비전문가 모두를 대상으로 하며, 실제 시나리오를 반영하는 다양한 질문 유형을 포함하는 법률 RAG를 위한 포괄적인 데이터셋인 ClaimRAG-LAW를 소개합니다. 나아가 우리는 최신 법률 RAG 시스템에 세밀한 평가 프레임워크를 적용하여, 법률 도메인에서의 검색, 생성 및 주장 단위 (claim-level) 분석의 한계를 밝혀냅니다.

Insights

법률 분야를 위한 세밀한 주장 단위(Claim-level) RAG 벤치마크

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어