arXiv논문2026. 06. 23. 12:57

LLM 내부 들여다보기: 법률 분류의 신뢰성 향상을 위한 LLM 내부 아티팩트(Internal Artifacts) 활용

요약

법률 분야에서 LLM의 환각 현상을 방지하기 위해 모델 내부 아티팩트를 활용하는 연구를 소개합니다. 내부 특징을 추출하여 부정확한 출력을 식별하는 분류기를 구축함으로써 법률 분류 작업의 신뢰성을 높이는 방법을 제안합니다.

핵심 포인트

LLM 내부 아티팩트를 활용한 부정확한 출력 탐지 방법론 제안
보석 결정 및 법규 위반 예측 등 실제 법률 작업에 적용 및 검증
내부 아티팩트가 LLM 예측의 신뢰성을 판단하는 유효한 지표임을 입증

대규모 언어 모델 (LLMs)은 법률 분야에서 점점 더 많이 채택되고 있습니다. 그러나 강력한 성능에도 불구하고, LLMs는 부정확하거나 환각 (hallucination)된 출력을 생성하기 쉬우며, 이는 법률과 같이 이해관계가 큰 (high-stakes) 분야에서 신뢰성에 대한 심각한 우려를 불러일으킵니다. 따라서 LLM 기반 시스템의 응답 정확성을 탐지하는 것은 매우 중요한 과제입니다. 본 연구에서는 법률 도메인 분류 작업에서 LLM의 예측 정확성을 탐지하기 위해 LLM의 내부 아티팩트 (internal artifacts)를 활용하는 잠재력을 탐구합니다. 우리는 이러한 내부 아티팩트에서 파생된 특징 (features)을 활용하여, 부정확한 LLM 출력을 식별할 수 있는 다운스트림 분류기 (downstream classifiers)를 구축하는 접근 방식을 개발합니다. 우리는 두 가지 대표적인 법률 분류 작업인 보석 결정 예측 (bail decision prediction) 및 법규 위반 예측 (statute violation prediction)에 대해 우리의 접근 방식을 평가합니다. 실험 결과는 LLMs의 내부 아티팩트가 법률 분류 작업에서 부정확한 예측을 탐지하는 신뢰할 수 있는 지표임을 입증하며, LLM 기반 분류 시스템의 신뢰성을 향상시키는 데 적용될 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 내부 들여다보기: 법률 분류의 신뢰성 향상을 위한 LLM 내부 아티팩트(Internal Artifacts) 활용

요약

핵심 포인트

댓글