칠레 서비스 이용약관 내 잠재적 불공정 조항의 검색 증강 탐지
요약
칠레 서비스 이용약관 내 불공정 조항을 탐지하기 위한 RAG 기반 프레임워크를 제안합니다. 하이브리드 검색과 재순위화 기술을 결합하여 오픈 웨이트 모델에서도 높은 성능을 구현하며, 새로운 법적 조항 데이터셋을 공개합니다.
핵심 포인트
- RAG를 활용한 불공정 조항 자동 탐지 및 분류 프레임워크 제안
- 하이브리드 밀집-희소 검색 및 재순위화 기술 적용
- 1만 개 이상의 주석이 달린 칠레 이용약관 데이터셋 구축
- 로컬 오픈 웨이트 모델의 효율적인 법률 검토 가능성 입증
온라인 서비스 이용약관 (Terms of Service)은 흔히 부합 계약 (contracts of adhesion)으로서 기능하며, 소비자를 잠재적인 불공정 조항 (abusive clauses)에 노출시킬 수 있는 비대칭성을 생성합니다. 칠레의 경우, 일부 조항은 소비자 보호법을 명백히 위반하지만, 다른 조항들은 신의성실 (good faith) 및 계약상 불균형 (contractual imbalance)과 같은 더 넓은 기준에 의존하기 때문에 이러한 조항을 평가하는 것은 법적으로 까다롭습니다. 본 논문에서는 칠레 서비스 이용약관 내 잠재적 불공정 조항을 자동 탐지 및 분류하기 위한 검색 증강 생성 (Retrieval-Augmented Generation, RAG) 프레임워크를 제시합니다. 로컬 실행을 위해 설계된 이 프레임워크는 효율적인 조항 탐지, 하이브리드 밀집-희소 검색 (hybrid dense--sparse retrieval), 재순위화 (reranking), 그리고 프롬프트 증강 (prompt augmentation)을 결합하여 중간 크기의 오픈 웨이트 (open-weight) 언어 모델을 지원합니다. 또한, 우리는 불법 (illegal), 다크 (dark), 그레이 (gray) 조항을 아우르는 24개의 법적 근거 카테고리에 걸쳐 100개의 계약서와 10,029개의 주석 처리된 조항으로 구성된 '칠레 불공정 서비스 이용약관 확장 코퍼스 (Chilean Abusive Terms of Service Extended corpus)'를 소개합니다. 상용 언어 모델과 오픈 웨이트 언어 모델, 미세 조정된 인코더 (fine-tuned encoders), 그리고 전통적인 베이스라인 (baselines)을 비교한 실험 결과, 검색 증강 프롬프팅 (retrieval-augmented prompting)이 성능을 실질적으로 향상시키며, 로컬 모델이 더 낮은 계산 및 토큰 비용으로 대규모 클라우드 기반 시스템에 근접할 수 있음을 보여줍니다. 본 연구는 또한 정교한 법적 주석 체계와 AI 보조 소비자 계약 검토를 위한 실용적인 설계를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기