arXiv논문2026. 05. 25. 16:47

오래된 친구에게 묻기: LLM 기반 법령 질의응답에서의 시간적 실패 모드 진단 및 완화

요약

LLM이 법령 질의응답 시 겪는 '중단 시점 이후의 노후화'와 '최신성 편향'이라는 두 가지 시간적 실패 모드를 분석한 연구입니다. 독일 법령 벤치마크를 통해 OpenAI, Anthropic, DeepSeek 모델을 평가하고 RAG를 통한 완화 방안을 제시합니다.

핵심 포인트

학습 중단 시점 이후의 법령 개정으로 인한 정보 노후화 문제 식별
역사적 사실보다 최신 조항을 선호하는 최신성 편향 현상 발견
RAG 기반의 날짜 추출 및 버전 필터링 방식이 성능 향상에 효과적
신뢰할 수 있는 법률 QA를 위해 시간적 유효성 제약 조건 필요

대규모 언어 모델 (Large language models, LLMs)은 법률 연구에 점점 더 많이 사용되고 있지만, 모델의 고정된 학습 중단 시점 (training cutoffs) 및 정적인 파라미터 지식 (static parametric knowledge)에 대한 의존성은 계속해서 변화하는 법령 (statutory law)의 특성과 상충됩니다. 본 연구에서는 두 가지 시간적 실패 모드 (temporal failure modes)를 연구합니다. 하나는 입법 개정 이후 모델이 폐지된 규칙을 적용하는 '중단 시점 이후의 노후화 (post-cutoff staleness)'이며, 다른 하나는 역사적 버전이 사실 관계를 규정하는 경우에도 모델이 더 최신의 조항을 선호하는 '최신성 편향 (recency bias)'입니다. 이를 위해 우리는 세 가지 범주인 '중단 시점 이후 개정 질문 (Post-Cutoff Amendment Questions)', '개정 전 질문 (Pre-Amendment Questions)', 그리고 '다중 조항 개정 전 질문 (Multi-Provision Pre-Amendment Questions)'에 걸쳐 전문가가 검증한 312개의 시간 민감형 독일 법령 질의응답 (QA) 쌍 벤치마크를 제시합니다. 우리는 OpenAI, Anthropic, DeepSeek의 5가지 LLM을 네 가지 추론 설정 하에서 평가합니다: Vanilla, Web-search, 그리고 사실 날짜 추출 (fact date extraction) 및 버전 필터링 (version filtering)을 통해 시간적 유효성 (temporal validity)을 강제하는 두 가지 검색 증강 (retrieval-augmented) 변형 방식입니다. 인간 전문가의 평가와 대조하여 검증된 LLM-as-a-judge를 사용하여 분석한 결과, Vanilla 중단 시점 이후 설정에서 심각한 성능 저하를 발견했습니다. 두 가지 RAG 접근 방식은 모든 질문 유형에서 성능을 실질적으로 향상시킨 반면, 웹 검색 (web search)은 불안정한 이득을 보였으며 역사적으로 고정된 작업에서 뚜렷한 최신성 편향을 보였습니다. 우리의 결과는 신뢰할 수 있는 법률 질의응답 (legal QA)을 위해서는 시간적 유효성을 엄격한 제약 조건 (hard constraint)으로 취급해야 함을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

오래된 친구에게 묻기: LLM 기반 법령 질의응답에서의 시간적 실패 모드 진단 및 완화

요약

핵심 포인트

댓글