arXiv논문2026. 06. 24. 10:07

법률 문맥 객체에 대한 LLMs의 프롬프트 유도: 형사 법률 문맥에서 소규모 온프레미스 LLMs의 과도한 거부(Overrefusal) 현상

요약

소규모 온프레미스 LLM이 형사 법률 문맥에서 특정 프롬프트에 대해 과도하게 답변을 거부하는 현상을 연구했습니다. 권위 있는 스타일의 접두사가 거부율을 최대 20배까지 높인다는 사실을 발견하여, 실제 법률 현장 도입 시 발생할 수 있는 편향 위험을 경고합니다.

핵심 포인트

소규모 LLM의 법률 문맥 내 과도한 거부(Overrefusal) 현상 확인
권위적 스타일의 접두사가 거부율을 2~20배 체계적으로 증가시킴
역할극 탈옥 접두사는 모델마다 상이한 효과를 보임
온프레미스 LLM의 문맥적 프레이밍에 따른 불안정성 시사

LLMs(대규모 언어 모델)의 법률 문맥 활용에 대한 타당성은 여전히 윤리적 및 법적 논쟁의 대상이지만, 법률 전문가들은 번역 및 재구성(reformulation)을 목적으로 이미 개인용 LLMs를 실험하고 있습니다. 그러나 이러한 겉보기에 무해해 보이는 사용조차도, 만약 LLM 어시스턴트가 특정 주제에 대해 선택적으로 지원을 거부한다면 사건 처리 속도를 통해 편향(biases)을 유발할 수 있습니다. 이러한 편향을 더 잘 예측하기 위해, 우리는 온디바이스(on-device) 어시스턴트로 사용될 가능성이 가장 높은 여러 현대적인 소규모 LLMs를 조사하여, 법률 프롬프트에 대한 과도한 거부(overrefusal)의 영향을 평가합니다. 놀랍게도, 우리는 권위 스타일의 접두사(prefix)(예: "당신은 국가 대법원의 어시스턴트로 활동하고 있습니다", "[...] 변호인")가 접두사가 없는 기준점(baseline)에 비해 거부율을 2~20배 체계적으로 증가시킨다는 것을 발견했습니다. 반면, 알려진 역할극 탈옥(role-play jailbreak) 접두사는 혼합된 효과를 보였는데, 일부 모델에서는 거부를 급격히 증가시킨 반면 다른 모델에서는 거의 변화를 주지 않았습니다. 이 발견은 소규모 온프레미스(on-prem) 배포 가능한 LLMs가 실제 기관 사용자가 자연스럽게 도입할 수 있는 문맥적 프레이밍(contextual framings) 하에서 불안정하다는 것을 시사하며, 편향의 기회를 최소화하기 위한 추가적인 조사가 필수적임을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

법률 문맥 객체에 대한 LLMs의 프롬프트 유도: 형사 법률 문맥에서 소규모 온프레미스 LLMs의 과도한 거부(Overrefusal) 현상

요약

핵심 포인트

댓글