arXiv논문2026. 06. 23. 14:25

다국어 형사 법원에서의 LLM 과잉 정렬(Over-Alignment) 측정 및 완화

요약

스위스 형사법 맥락에서 LLM의 과잉 정렬(Over-Alignment) 문제를 다룹니다. 다국어 벤치마크인 TF-RefusalBench를 통해 모델의 과도한 거부 현상을 측정하고, 프롬프팅 및 에블리터레이션(abliteration)을 통한 완화 방안을 제시합니다.

핵심 포인트

형사법 판결문의 민감한 내용으로 인한 LLM의 과도한 거부 현상 분석
4개 국어(프랑스어, 독일어, 이탈리아어, 영어) 대상 TF-RefusalBench 벤치마크 도입
과잉 정렬이 모델 및 언어에 따라 다르게 나타나는 다면적 현상임을 입증
에블리터레이션 기법이 작업 성능 저하를 최소화하며 거부를 제거하는 효과적인 방법임을 확인

LLM(Large Language Models)의 신뢰성과 오류의 심각성으로 인해 법률 분야에서의 광범위한 적용 가능성은 현재 논쟁 중이지만, 위험 요소가 잘 이해되고 완화된 좁은 범위의 활용 사례들은 등장했습니다. 특히 스위스 연방 대법원은 4개의 공식 언어에 걸쳐 초안 번역 및 짧은 구절 요약을 위해 소규모 온프레미스(on-premises) 모델을 사용하고 있습니다. 그러나 이러한 사용은 형사법(Criminal Law) 맥락에서는 어려움이 있습니다. 직원들이 일상적으로 다루는 판결문과 사건에는 폭력 및 성범죄에 대한 상세한 묘사가 포함될 수 있기 때문에, 모델의 가드레일(guardrails) 활성화로 인한 거부(refusals) 및 면책 고지(disclaimers)로 인해 정당한 업무 수행이 저해됩니다(과잉 정렬 (over-alignment)). 이 현상을 측정하기 위해, 우리는 공개된 스위스 대법원 판결문에서 유도된 형사법 번역 및 요약을 위한 다국어 벤치마크인 TF-RefusalBench를 소개합니다. TF-RefusalBench는 프랑스어, 독일어, 이탈리아어, 영어에 걸쳐 총 5,200개의 프롬프트를 포함하며, 이는 일반적인 작업 프롬프트와 거부를 유발할 가능성이 있는 구절들에 대응합니다. 우리는 TF-RefusalBench를 사용하여 과잉 정렬이 모델과 처리되는 프롬프트 및 텍스트 언어의 영향을 받는 다면적인 현상임을 보여주며, 면책 고지가 작업 충실도(task faithfulness)에 미치는 영향을 고려할 때 과잉 거부(over-refusal) 관점만으로는 그 영향을 평가할 수 없음을 보여줍니다. 마지막으로, 형사법 작업을 위해 온프레미스 LLM을 사용할 수 있게 하는 접근 방식들을 평가하며, 프롬프팅(prompting)이 효과적일 수 있는 반면, 에블리터레이션(abliteration, 거부 방향성 제거)은 작업 성능에 미치는 영향을 최소화하면서 거부를 제거함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

다국어 형사 법원에서의 LLM 과잉 정렬(Over-Alignment) 측정 및 완화

요약

핵심 포인트

댓글