추론기인가 번역기인가? 세법 분야의 오염 인지 평가 및 신경-기호적(Neuro-Symbolic) 강건성 연구

최근 거대 언어 모델 (LLMs)의 발전은 자동화된 법률 추론 (Legal Reasoning) 능력을 크게 향상시켰습니다. 하지만 이들의 성능이 진정한 법률 추론 능력을 반영하는 것인지, 아니면 데이터 오염 (Data Contamination)에 의한 결과물인지 여부는 여전히 불분명합니다. 본 연구에서는 세법 추론 방식에 대한 포괄적인 실증적 연구를 제시하며, LLM의 신뢰성을 엄격하게 평가하기 위해 오염 탐지 프로토콜을 구현합니다. 우리는 오염에 의해 성능이 부풀려질 수 있음을 보여줍니다. 이러한 분석을 바탕으로, 우리는 단일 모델 LLM (Monolithic LLMs)과 법률 조문 텍스트를 형식적 표현 (Formal Representations)으로 변환하여 추론을 기호적 솔버 (Symbolic Solvers)에 위임하는 하이브리드 시스템을 비교하는 체계적인 평가를 수행합니다. 우리는 사례 및 규칙 변형을 통해 미학습 문서에 대한 일반화 (Generalization) 능력을 조사하도록 설계된 새로운 테스트 스위트를 구축합니다. 우리의 연구 결과는 법률 추론이 본질적으로 구성적 (Compositional)이며, 신경-기호적 (Neuro-Symbolic) 프레임워크가 법률 AI를 위한 더욱 신뢰할 수 있고 강건한 기반을 제공할 뿐만 아니라, 관찰되지 않은 상황에 대한 일반화 성능도 향상시킨다는 것을 나타냅니다.

Insights

추론기인가 번역기인가? 세법 분야의 오염 인지 평가 및 신경-기호적(Neuro-Symbolic) 강건성 연구

요약

핵심 포인트

댓글

우리가 갖지 못했던 CC-BY 4.0

옵션 시장이 시사하는 Marvell Technology 주가의 다음 큰 변동성

Adtran, 고객 프로젝트 지연으로 인한 2분기 매출 전망치 하향 조정 후 주가 급락 (NASDAQ:ADTN)

Custom Health, 위스콘신 소재 Evergreen Pharmacy를 350만 달러에 인수

우리가 갖지 못했던 CC-BY 4.0

옵션 시장이 시사하는 Marvell Technology 주가의 다음 큰 변동성

Adtran, 고객 프로젝트 지연으로 인한 2분기 매출 전망치 하향 조정 후 주가 급락 (NASDAQ:ADTN)

Custom Health, 위스콘신 소재 Evergreen Pharmacy를 350만 달러에 인수