오래된 친구에게 묻기: LLM 기반 법령 질의응답에서의 시간적 실패 모드 진단 및 완화
요약
LLM이 법령 질의응답 시 겪는 '중단 시점 이후의 노후화'와 '최신성 편향'이라는 두 가지 시간적 실패 모드를 분석한 연구입니다. 독일 법령 벤치마크를 통해 OpenAI, Anthropic, DeepSeek 모델을 평가하고 RAG를 통한 완화 방안을 제시합니다.
핵심 포인트
- 학습 중단 시점 이후의 법령 개정으로 인한 정보 노후화 문제 식별
- 역사적 사실보다 최신 조항을 선호하는 최신성 편향 현상 발견
- RAG 기반의 날짜 추출 및 버전 필터링 방식이 성능 향상에 효과적
- 신뢰할 수 있는 법률 QA를 위해 시간적 유효성 제약 조건 필요
대규모 언어 모델 (Large language models, LLMs)은 법률 연구에 점점 더 많이 사용되고 있지만, 모델의 고정된 학습 중단 시점 (training cutoffs) 및 정적인 파라미터 지식 (static parametric knowledge)에 대한 의존성은 계속해서 변화하는 법령 (statutory law)의 특성과 상충됩니다. 본 연구에서는 두 가지 시간적 실패 모드 (temporal failure modes)를 연구합니다. 하나는 입법 개정 이후 모델이 폐지된 규칙을 적용하는 '중단 시점 이후의 노후화 (post-cutoff staleness)'이며, 다른 하나는 역사적 버전이 사실 관계를 규정하는 경우에도 모델이 더 최신의 조항을 선호하는 '최신성 편향 (recency bias)'입니다. 이를 위해 우리는 세 가지 범주인 '중단 시점 이후 개정 질문 (Post-Cutoff Amendment Questions)', '개정 전 질문 (Pre-Amendment Questions)', 그리고 '다중 조항 개정 전 질문 (Multi-Provision Pre-Amendment Questions)'에 걸쳐 전문가가 검증한 312개의 시간 민감형 독일 법령 질의응답 (QA) 쌍 벤치마크를 제시합니다. 우리는 OpenAI, Anthropic, DeepSeek의 5가지 LLM을 네 가지 추론 설정 하에서 평가합니다: Vanilla, Web-search, 그리고 사실 날짜 추출 (fact date extraction) 및 버전 필터링 (version filtering)을 통해 시간적 유효성 (temporal validity)을 강제하는 두 가지 검색 증강 (retrieval-augmented) 변형 방식입니다. 인간 전문가의 평가와 대조하여 검증된 LLM-as-a-judge를 사용하여 분석한 결과, Vanilla 중단 시점 이후 설정에서 심각한 성능 저하를 발견했습니다. 두 가지 RAG 접근 방식은 모든 질문 유형에서 성능을 실질적으로 향상시킨 반면, 웹 검색 (web search)은 불안정한 이득을 보였으며 역사적으로 고정된 작업에서 뚜렷한 최신성 편향을 보였습니다. 우리의 결과는 신뢰할 수 있는 법률 질의응답 (legal QA)을 위해서는 시간적 유효성을 엄격한 제약 조건 (hard constraint)으로 취급해야 함을 나타냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기