LegalHalluLens: 신뢰할 수 있는 법률 AI를 위한 유형별 환각 감사 및 교정된 멀티 에이전트 토론
요약
법률 AI의 환각 문제를 유형별로 분석하고 교정하기 위한 감사 프레임워크 LegalHalluLens를 제안합니다. RDI 지표를 통해 환각의 방향성을 파악하고, 멀티 에이전트 토론을 통해 오류를 효과적으로 줄이는 방법을 제시합니다.
핵심 포인트
- 법률 AI의 환각을 수치, 시간, 의무, 사실 등 4가지 범주로 세분화하여 분석
- 위험 방향 지수(RDI)를 도입하여 환각의 누락 및 발명 편향을 측정
- 멀티 에이전트 토론 파이프라인을 통해 조작된 탐지를 45% 감소시킴
- 소형 모델(4B)로도 상용 API 수준의 법률 진단 및 교정 성능 달성
법률 워크플로우에 배포된 AI 시스템은 집계된 지표상 약 52%의 비율로 환각 (Hallucination)을 일으키지만, 이러한 평균치는 오류가 어디에 집중되는지, 그리고 어떤 방향으로 발생하는지를 은폐하여 컴플라이언스 담당자들에게 신뢰할 수 있는 배포를 위한 실행 가능한 신호를 제공하지 못합니다. 우리는 세 가지 구성 요소로 이루어진 감사 프레임워크인 LegalHalluLens를 제시합니다: CUAD (Hendrycks et al., 2021)를 기반으로 네 가지 법률적 동기 기반 주장 범주(수치적(numeric), 시간적(temporal), 의무/권리(obligation/entitlement), 사실적(factual))에 걸친 유형별 환각 프로필; 누락(omission) 대 발명(invention) 편향을 단일 배포 비교 가능 스칼라로 줄이는 위험 방향 지수 (Risk Direction Index, RDI); 그리고 크기와 방향 모두에 교정된 유형별 토론 파이프라인입니다. 510개의 계약서와 249,252개의 조항 수준 인스턴스를 통해, 우리는 집계 보고가 숨기는 의무/수치적 주장과 시간적 주장 사이의 모델 내 격차가 약 38-40%p에 달함을 측정하였으며, 52%의 동일한 비율을 가진 두 시스템이 서로 반대되는 RDI를 가질 수 있음을 보여줍니다. 토론 파이프라인은 조작된 탐지를 45% 감소시키며, 범주별 이득은 진단을 추적하여 훨씬 더 작은 백본(4B 활성 파라미터)으로 상용 API와 일치하는 성능을 보여줍니다. 유형별 프로필과 RDI는 집계된 지표가 숨기는 실패 모드(failure modes)를 드러냅니다; 나아가 우리는 이러한 진단이 멀티 에이전트 토론 파이프라인을 위한 교정 입력으로 기능함을 보여주며, 여기서 측정된 실패 모드를 겨냥한 회의론자(Skeptic)의 도전과 비대칭 게이트(asymmetric gates)는 일반적인 튜닝을 거친 토론보다 우수한 성능을 발휘합니다. 이 프레임워크는 실제 환경에 배포되는 법률 AI를 위한 방향 인식 조달, 책임성 및 에이전트 설계를 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기