arXiv논문2026. 06. 03. 12:13

법률 QA의 인용 품질을 위한 귀속 관점에서의 재순위화 (Re-Ranking)

요약

법률 QA 시스템의 RAG 성능 향상을 위해 의미적 유사성 대신 섭동 기반 귀속 점수를 활용한 재순위화(Re-ranking) 기법을 제안합니다. 이 방식은 인용 충실도와 전문가 답변과의 정렬을 개선하며, 모델 불가지론적인 학습 신호를 제공함을 입증했습니다.

핵심 포인트

의미적 유사성이 구절 귀속 성능과 상관관계가 낮음을 확인
섭동 기반 귀속 점수를 활용한 경량 크로스 인코더 학습
인용 충실도 및 전문가 정답과의 정렬 실질적 개선
모델 간 전이 가능한 공유된 관련성 신호 발견

법률 질의응답 (Legal QA)을 위한 검색 증강 생성 (Retrieval-augmented generation, RAG) 시스템은 일반적으로 의미적 유사성 (Semantic similarity)을 기반으로 구절을 검색하여 언어 모델 (Language model)에 제공하며, 모델은 이를 바탕으로 인용된 답변을 생성합니다. 기존 연구들은 순위가 높은 구절일수록 모델에 의해 유용하게 인용될 가능성이 높다고 가정합니다. C-LIME과 같은 섭동 기반 귀속 (Perturbation-based attribution) 방법들은 오직 사후 설명 (Post-hoc explanation) 용도로만 사용되어 왔습니다. 그러나 AQuAECHR 벤치마크에서 확인한 결과, 의미적 유사성은 구절 귀속 (Passage attribution)과 상관관계가 없었습니다. 검색기의 후보 풀 (Candidate pool) 내에서, 유사성 기반 순위 지정은 정답 인용 단락 (Gold citation paragraphs)을 찾아내는 데 있어 무작위 선택 (Random selection)보다 성능이 낮았습니다. 이러한 한계를 해결하기 위해, 생성 전 구절을 재순위화 (Re-rank)할 수 있도록 연속적인 섭동 기반 귀속 점수를 사용하여 경량 크로스 인코더 (Lightweight cross-encoder)를 학습시킵니다. 이 접근 방식은 두 개의 언어 모델과 5-겹 교차 검증 (Five-fold cross-validation)을 사용하여 AQuAECHR 벤치마크에서 평가되었습니다. 재순위화 모델 (Re-ranker)은 인용 충실도 (Citation faithfulness)와 전문가 정답 (Gold expert answers)과의 정렬 (Alignment)을 실질적으로 개선합니다. 특히, 서로 다른 모델에서 독립적으로 학습된 두 개의 재순위화 모델은 원시 귀속 일치도 (Raw attribution agreement)를 넘어서는 수렴 양상을 보였습니다. 이러한 발견은 크로스 인코더가 모델 특이적 노이즈 (Model-specific noise)를 줄이고, 모델 간에 부분적으로 전이될 수 있는 공유된 관련성 신호 (Shared relevance signal)를 생성함을 나타내지만, 동일 모델에서의 재순위화가 여전히 더 효과적입니다. 이러한 결과는 섭동 기반 귀속이 인용 인지 검색 (Citation-aware retrieval)을 위한 실용적이고 모델 불가지론적 (Model-agnostic)인 학습 신호를 제공함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

법률 QA의 인용 품질을 위한 귀속 관점에서의 재순위화 (Re-Ranking)

요약

핵심 포인트

댓글