본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 18. 20:02

추론기인가 번역기인가? 세법 분야의 오염 인지 평가 및 신경-기호적(Neuro-Symbolic) 강건성 연구

요약

본 연구는 LLM의 세법 추론 능력이 실제 추론인지 아니면 데이터 오염에 의한 결과인지 분석합니다. 연구 결과, 단일 LLM보다 법률 조문을 형식적 표현으로 변환하여 기호적 솔버와 결합한 신경-기호적(Neuro-Symbolic) 하이브리드 시스템이 미학습 문서에 대한 일반화와 신뢰성 측면에서 더 우수함을 입증했습니다.

핵심 포인트

  • LLM의 법률 추론 성능이 데이터 오염(Data Contamination)으로 인해 과대평가될 수 있음을 확인
  • 법률 추론의 구성적(Compositional) 특성을 고려한 신경-기호적(Neuro-Symbolic) 프레임워크의 필요성 제시
  • 기호적 솔버를 활용한 하이브리드 시스템이 미학습 상황에 대한 일반화 성능이 더 높음
  • 새로운 테스트 스위트를 통해 사례 및 규칙 변형에 대한 모델의 강건성 평가

최근 거대 언어 모델 (LLMs)의 발전은 자동화된 법률 추론 (Legal Reasoning) 능력을 크게 향상시켰습니다. 하지만 이들의 성능이 진정한 법률 추론 능력을 반영하는 것인지, 아니면 데이터 오염 (Data Contamination)에 의한 결과물인지 여부는 여전히 불분명합니다. 본 연구에서는 세법 추론 방식에 대한 포괄적인 실증적 연구를 제시하며, LLM의 신뢰성을 엄격하게 평가하기 위해 오염 탐지 프로토콜을 구현합니다. 우리는 오염에 의해 성능이 부풀려질 수 있음을 보여줍니다. 이러한 분석을 바탕으로, 우리는 단일 모델 LLM (Monolithic LLMs)과 법률 조문 텍스트를 형식적 표현 (Formal Representations)으로 변환하여 추론을 기호적 솔버 (Symbolic Solvers)에 위임하는 하이브리드 시스템을 비교하는 체계적인 평가를 수행합니다. 우리는 사례 및 규칙 변형을 통해 미학습 문서에 대한 일반화 (Generalization) 능력을 조사하도록 설계된 새로운 테스트 스위트를 구축합니다. 우리의 연구 결과는 법률 추론이 본질적으로 구성적 (Compositional)이며, 신경-기호적 (Neuro-Symbolic) 프레임워크가 법률 AI를 위한 더욱 신뢰할 수 있고 강건한 기반을 제공할 뿐만 아니라, 관찰되지 않은 상황에 대한 일반화 성능도 향상시킨다는 것을 나타냅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0