ML-Bench&Guard: 정책 기반 다국어 안전 벤치마크 및 대형 언어 모델용 방벽

대형 언어 모델 (LLMs) 이 교차 언어적 맥락에 점점 더 많이 배포됨에 따라, 다양한 규제 및 문화적 환경에서의 안전성을 보장하는 것은 중요한 과제가 되었습니다. 그러나 기존의 다국어 벤치마크는 일반적으로 위험 분류 체계와 기계 번역을 크게 의존하여 방벽 모델을 이러한 사전 정의된 범주에만 제한하고 지역별 규제 및 문화적 뉘앙스와 정렬할 능력을 저해합니다. 이러한 격차를 해소하기 위해, 우리는 14 개 언어를 포괄하는 정책 기반 다국어 안전 벤치마크인 ML-Bench 를 소개합니다. ML-Bench 는 지역 규정을 기반으로 직접적으로 구성되었으며, 관할권별 법적 텍스트에서 파생된 위험 범주와 세밀한 규칙은 직접적으로 다국어 안전 데이터 생성을 안내하여 문화적 및 법적으로 정렬된 평가가 가능하게 합니다. ML-Bench 를 바탕으로, 우리는 다국어 안전 판단 및 정책 조건부 준수 평가를 지원하는 Diffusion 대형 언어 모델 (dLLM) 기반 방벽 모델을 개발했습니다. ML-Guard 는 두 가지 변형이 있으며, 빠른 '안전/위험' 확인을 위한 1.5B 경량 모델과 상세한 설명을 통한 맞춤형 준수 확인을 위한 더 강력한 7B 모델입니다. 우리는 6 개 기존 다국어 안전 벤치마크 및 우리 ML-Bench 에서 11 개의 강력한 방벽 베이스라인에 대해 광범위한 실험을 수행하여, ML-Guard 가 이전 방법보다 일관되게 우수함을 보여줍니다. 우리는 ML-Bench 와 ML-Guard 가 규제 인식 및 문화적으로 정렬된 다국어 방벽 시스템 개발을 촉진하는 데 도움이 될 것이라고 희망합니다.

Insights

ML-Bench&Guard: 정책 기반 다국어 안전 벤치마크 및 대형 언어 모델용 방벽

요약

핵심 포인트

댓글

AI 인프라 논쟁이 진화함에 따라 Nvidia, Vera CPU 전략 강조

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화