학습할 것인가, 검색할 것인가, 아니면 둘 다인가? Ontario Residential Tenancies Act의 정확한 법률 인용을 위한
요약
Ontario 주 임대차법(RTA)의 정확한 법률 인용을 위해 SFT와 RAG의 효과를 비교 연구했습니다. 연구 결과, SFT와 RAG를 결합한 하이브리드 방식이 환각을 방지하고 가장 높은 인용 정확도를 기록했습니다.
핵심 포인트
- SFT 단독으로는 법률 조항을 잘못 회상하는 경향이 있음
- RAG는 법률 인용 시 환각을 제로로 만드는 필수 요소임
- SFT+RAG 하이브리드 방식이 가장 높은 정확도를 보임
- 대규모 모델보다 효율적인 하이브리드 검색 구조가 더 중요함
변호사 없이 스스로를 대변하는 세입자, 임대인, 그리고 헬프데스크 직원들은 질문을 실제로 규율하는 법률 조항을 정확한 법률 인용 (statutory citation)과 함께 안내받아야 합니다. 본 연구에서는 Ontario Residential Tenancies Act, 2006 (RTA) 및 그 핵심 규정을 대상으로, 운영자의 질문인 '미세 조정 (fine-tuning)만으로 충분한가, 아니면 하이브리드 검색 (hybrid retrieval)이 필요한가?'를 경험적으로 연구합니다. 우리는 Qwen2.5-7B-Instruct를 대상으로 4개 방식(기본 제로샷 (base zero-shot), LoRA SFT 전용, RAG 전용, 그리고 SFT+RAG 하이브리드)의 직접 비교 (head-to-head)를 수행하였으며, 인간의 검증을 기다리는 소규모 실제 평가 세트에서 인용 정확도 일치 (citation exact-match, 섹션+하위 섹션)를 기준으로 점수를 산출했습니다. 기본 모델은 RTA를 인용할 수 없으며, SFT 전용 모델은 섹션을 잘못 회상 (mis-recalls)합니다. 검색 (retrieval)은 필수적이며 구조적으로 환각 (hallucination)을 제로로 만듭니다. SFT+RAG 하이브리드는 환각 인용 없이 0.481의 정확도 일치 점수로 가장 높은 점수를 기록했습니다. 이 방식의 강점은 SFT가 제로샷 RAG에 해를 끼치는 높은 재현율 (higher-recall)의 후보 세트에 대해 조항 선택을 더욱 견고하게 만든다는 점에 있습니다. 특히, 저렴한 bge-small 하이브리드는 더 큰 전문 검색 모델(더 큰 임베더 (embedder) 및 크로스 인코더 리랭커 (cross-encoder reranker))로 구축된 파이프라인과 대등하거나 이를 능가하며, 더 크거나 개선된 학습 세트 또한 도움이 되지 않았습니다. 즉, 여기서 강력한 법률 인용 성능을 내기 위해서는 전문화된 검색 모델이나 더 많은 데이터가 필요하지 않습니다. 이 결과물은 환각을 제거하고 기본 모델 대비 성능 향상 기준을 통과했지만, 목표치인 0.70 정확도 일치에는 도달하지 못했습니다. 모든 결과는 인간의 검증을 기다리는 소규모 실제 평가 세트를 바탕으로 하며 예비 결과로 보고됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기