LLM은 시간 여행을 할 수 있는가? 강화학습 (RL)을 통한 법률 에이전트 검색의 시간적 일관성 향상
요약
법률 LLM이 겪는 시간적 편향 문제를 해결하기 위해 강화학습 기반의 LegalSearch-R1 프레임워크를 제안합니다. 로컬 RAG와 웹 검색을 결합하여 사건의 시간적 맥락에 맞는 정확한 법령 및 판례를 인용하도록 설계되었습니다.
핵심 포인트
- 법률 LLM의 시간적 편향 및 소급 적용 오류 문제 지적
- LegalSearch-R1: RAG와 웹 검색을 결합한 강화학습 프레임워크
- 시간 인덱스 데이터를 활용한 시간적 일관성 강제 학습
- 기존 법률 LLM 및 딥 리서치 모델 대비 높은 성능 입증
에이전트 검색 (Agentic Search) 능력이 강화된 대규모 언어 모델 (LLMs)은 법률적 추론에서 유망한 가능성을 보여주지만, 적용 가능한 법률이 각 사건의 시간적 맥락 (Temporal Context)과 일치해야 한다는 근본적인 제약 조건을 간과합니다. 법률의 소급 적용은 핵심적인 법적 원칙을 위반하며 잘못된 결론으로 이어지기 때문입니다. 우리의 관찰 결과에 따르면, 현재의 법률 LLM들은 학습 중단 시점 (Training Cutoff)에 고정된 시간적 편향 (Temporal Bias)을 겪고 있으며, 검색 에이전트들은 쿼리에 시간적 제약 조건을 거의 포함하지 않고, 웹 검색만으로는 법률적 추론이 요구하는 정확한 법령 및 판례 인용을 제공할 수 없다는 점이 드러났습니다. 이러한 과제를 해결하기 위해, 우리는 LegalSearch-R1을 제안합니다. 이는 정확한 조항 매칭을 위한 로컬 법령 RAG (Retrieval-Augmented Generation)와 광범위한 법률 지식을 위한 온라인 웹 검색을 결합한 엔드 투 엔드 강화학습 (Reinforcement Learning) 프레임워크로, 시간적 일관성을 강제하기 위해 여러 개정 기간을 아우르는 시간 인덱스 데이터 (Temporally-indexed Data)로 학습되었습니다. 13가지 법률 태스크를 다루는 벤치마크를 통한 광범위한 실험 결과, 우리의 7B 파라미터 에이전트는 최첨단 딥 리서치 (Deep Research) 프레임워크 및 특화된 법률 LLM보다 12.9%에서 29.8% 더 우수한 성능을 보였으며, 시간적 일관성 측면에서는 베이스라인 대비 57.7%에서 80.3%를 상회하였고, 강력한 도메인 외 일반화 (Out-of-domain Generalization) 능력을 입증했습니다. 코드와 데이터는 https://github.com/AlexFanw/LegalSearch-R1 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기