X요약2026. 06. 29. 20:00

ByteDance가 Hugging Face에 SafePyramid를 출시했습니다

요약

ByteDance가 Hugging Face에 계층적 AI 안전 벤치마크인 SafePyramid를 출시했습니다. 이 벤치마크는 인컨텍스트 정책 가드레일링 성능을 측정하며, 최신 모델들의 정책 준수율이 급격히 하락함을 보여줍니다.

ByteDance가 Hugging Face에 SafePyramid를 출시했습니다.

인컨텍스트 정책 가드레일링 (in-context policy guardrailing)을 위한 계층적 AI 안전 벤치마크 (AI safety benchmark)입니다.

최상위 모델들이 새로운 정책 프레임워크 (policy frameworks)에서 정확히 일치 (exact match)하는 비율이 54%에서 12.9%로 급락했습니다.

1,000개의 대화. 61K개의 규칙. 3개의 난이도 레벨. https://t.co/7aSSOUnWSM

AI 자동 생성 콘텐츠