다국어 형사 법원에서의 LLM 과잉 정렬(Over-Alignment) 측정 및 완화
요약
스위스 형사법 맥락에서 LLM의 과잉 정렬(Over-Alignment) 문제를 다룹니다. 다국어 벤치마크인 TF-RefusalBench를 통해 모델의 과도한 거부 현상을 측정하고, 프롬프팅 및 에블리터레이션(abliteration)을 통한 완화 방안을 제시합니다.
핵심 포인트
- 형사법 판결문의 민감한 내용으로 인한 LLM의 과도한 거부 현상 분석
- 4개 국어(프랑스어, 독일어, 이탈리아어, 영어) 대상 TF-RefusalBench 벤치마크 도입
- 과잉 정렬이 모델 및 언어에 따라 다르게 나타나는 다면적 현상임을 입증
- 에블리터레이션 기법이 작업 성능 저하를 최소화하며 거부를 제거하는 효과적인 방법임을 확인
LLM(Large Language Models)의 신뢰성과 오류의 심각성으로 인해 법률 분야에서의 광범위한 적용 가능성은 현재 논쟁 중이지만, 위험 요소가 잘 이해되고 완화된 좁은 범위의 활용 사례들은 등장했습니다. 특히 스위스 연방 대법원은 4개의 공식 언어에 걸쳐 초안 번역 및 짧은 구절 요약을 위해 소규모 온프레미스(on-premises) 모델을 사용하고 있습니다. 그러나 이러한 사용은 형사법(Criminal Law) 맥락에서는 어려움이 있습니다. 직원들이 일상적으로 다루는 판결문과 사건에는 폭력 및 성범죄에 대한 상세한 묘사가 포함될 수 있기 때문에, 모델의 가드레일(guardrails) 활성화로 인한 거부(refusals) 및 면책 고지(disclaimers)로 인해 정당한 업무 수행이 저해됩니다(과잉 정렬 (over-alignment)). 이 현상을 측정하기 위해, 우리는 공개된 스위스 대법원 판결문에서 유도된 형사법 번역 및 요약을 위한 다국어 벤치마크인 TF-RefusalBench를 소개합니다. TF-RefusalBench는 프랑스어, 독일어, 이탈리아어, 영어에 걸쳐 총 5,200개의 프롬프트를 포함하며, 이는 일반적인 작업 프롬프트와 거부를 유발할 가능성이 있는 구절들에 대응합니다. 우리는 TF-RefusalBench를 사용하여 과잉 정렬이 모델과 처리되는 프롬프트 및 텍스트 언어의 영향을 받는 다면적인 현상임을 보여주며, 면책 고지가 작업 충실도(task faithfulness)에 미치는 영향을 고려할 때 과잉 거부(over-refusal) 관점만으로는 그 영향을 평가할 수 없음을 보여줍니다. 마지막으로, 형사법 작업을 위해 온프레미스 LLM을 사용할 수 있게 하는 접근 방식들을 평가하며, 프롬프팅(prompting)이 효과적일 수 있는 반면, 에블리터레이션(abliteration, 거부 방향성 제거)은 작업 성능에 미치는 영향을 최소화하면서 거부를 제거함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기