arXiv논문2026. 06. 01. 12:37

안전 기준 및 유해 카테고리에 따른 LLM 판사들의 불일치성

요약

참조 모델이 없는 환경에서 LLM 판사들의 안전성 평가 일관성을 분석한 연구입니다. LLM은 명백한 유해 콘텐츠 식별에는 강점이 있으나, 금융 규제와 같은 복잡한 영역에서는 판정의 신뢰도가 낮음을 확인했습니다.

핵심 포인트

폭력 등 명백한 유해 콘텐츠 식별 능력은 높음
금융 규제 관련 안전성 판단 시 신뢰도 저하
안전 기준 및 언어 스타일에 따른 판정 불일치 발생
도메인과 언어 전반에 걸쳐 판사 간 높은 불일치 존재

우리는 참조 모델이 없는 설정(reference-free setup)에서 다차원적 안전성 평가를 수행할 때 자동화된 판사(automated judges)의 일관성을 평가합니다. 연구 결과에 따르면, 대규모 언어 모델(Large Language Models, LLMs)은 폭력과 같이 더욱 명백한 형태의 안전하지 않거나 유해한 콘텐츠를 식별하는 데에는 더 신뢰할 수 있지만, 금융과 같은 규제 영역에서 기계가 생성한 조언과 관련된 안전 문제를 식별하는 데 있어서는 신뢰할 수 없는 판사임을 나타냅니다. 모델 판정의 불일치 정도는 선택된 안전 기준(safety criteria)에 따라 크게 달라질 수 있으며, 콘텐츠의 언어 및 언어적 스타일(linguistic style)에 의해서도 영향을 받을 수 있습니다. 마지막으로, 동일한 출력물에 대해 도메인, 안전 기준 및 언어 전반에 걸쳐 서로 다른 판사들 사이에 높은 불일치가 존재합니다. 이러한 발견은 평가자로서 LLM을 사용하는 관행에 대한 새로운 통찰을 제공하며, 실무자들이 실제 시나리오에서 자동화된 판사를 어떻게 사용할지에 대한 몇 가지 권장 사항을 제시합니다.

AI 자동 생성 콘텐츠

원문 바로가기

안전 기준 및 유해 카테고리에 따른 LLM 판사들의 불일치성

요약

핵심 포인트

댓글