본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 19:41

ML-Bench&Guard: 정책 기반 다국어 안전 벤치마크 및 대형 언어 모델용 방벽

요약

본 기술 기사는 LLM의 글로벌 배포에 따른 안전성 확보 문제를 다루며, 14개 언어를 포괄하는 정책 기반 다국어 안전 벤치마크인 ML-Bench를 소개합니다. ML-Bench는 지역 규정 및 법적 텍스트에서 파생된 위험 범주와 세부 규칙을 사용하여 문화적/법적으로 정렬된 평가가 가능하게 합니다. 또한, 이를 기반으로 다국어 안전 판단과 정책 조건부 준수 평가를 지원하는 Diffusion LLM(dLLM) 기반 방벽 모델인 ML-Guard를 개발했으며, 기존 벤치마크 대비 우수한 성능을 입증했습니다.

핵심 포인트

  • ML-Bench는 지역 규정 및 법적 텍스트에 기반하여 설계된 정책 기반 다국어 안전 벤치마크입니다.
  • 기존 벤치마크의 한계(사전 정의된 범주 의존성)를 극복하고 문화적/법적 정렬을 가능하게 합니다.
  • ML-Guard는 dLLM 기반 방벽 모델로, 빠른 '안전/위험' 확인용 경량 모델과 상세 준수 확인용 강력 모델 두 가지 변형을 제공합니다.
  • 광범위한 실험 결과, ML-Guard가 기존 다국어 안전 벤치마크 대비 일관되게 우수한 성능을 보였습니다.

대형 언어 모델 (LLMs) 이 교차 언어적 맥락에 점점 더 많이 배포됨에 따라, 다양한 규제 및 문화적 환경에서의 안전성을 보장하는 것은 중요한 과제가 되었습니다. 그러나 기존의 다국어 벤치마크는 일반적으로 위험 분류 체계와 기계 번역을 크게 의존하여 방벽 모델을 이러한 사전 정의된 범주에만 제한하고 지역별 규제 및 문화적 뉘앙스와 정렬할 능력을 저해합니다. 이러한 격차를 해소하기 위해, 우리는 14 개 언어를 포괄하는 정책 기반 다국어 안전 벤치마크인 ML-Bench 를 소개합니다. ML-Bench 는 지역 규정을 기반으로 직접적으로 구성되었으며, 관할권별 법적 텍스트에서 파생된 위험 범주와 세밀한 규칙은 직접적으로 다국어 안전 데이터 생성을 안내하여 문화적 및 법적으로 정렬된 평가가 가능하게 합니다. ML-Bench 를 바탕으로, 우리는 다국어 안전 판단 및 정책 조건부 준수 평가를 지원하는 Diffusion 대형 언어 모델 (dLLM) 기반 방벽 모델을 개발했습니다. ML-Guard 는 두 가지 변형이 있으며, 빠른 '안전/위험' 확인을 위한 1.5B 경량 모델과 상세한 설명을 통한 맞춤형 준수 확인을 위한 더 강력한 7B 모델입니다. 우리는 6 개 기존 다국어 안전 벤치마크 및 우리 ML-Bench 에서 11 개의 강력한 방벽 베이스라인에 대해 광범위한 실험을 수행하여, ML-Guard 가 이전 방법보다 일관되게 우수함을 보여줍니다. 우리는 ML-Bench 와 ML-Guard 가 규제 인식 및 문화적으로 정렬된 다국어 방벽 시스템 개발을 촉진하는 데 도움이 될 것이라고 희망합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0