
SingGuard: 멀티모달 AI를 위한 런타임 정책 기반 가드레일 (guardrails)
요약
SingGuard는 멀티모달 AI의 안전성을 위해 런타임 정책 기반의 가드레일을 제안하는 연구입니다. 텍스트와 이미지를 포함한 교차 모달 콘텐츠를 빠른/느린 추론 방식으로 판별하며, 다양한 데이터셋에서 SOTA 성능을 달성했습니다.
핵심 포인트
- 고정된 분류 체계 대신 런타임 입력값을 통한 안전 규칙 적용
- 텍스트, 이미지 및 교차 모달 콘텐츠를 판별하는 추론 메커니즘
- 6개 제품군 및 35개 데이터셋에서 SOTA 달성
- 2B, 4B, 8B 및 GGUF 변체 제공
SingGuard: 멀티모달 AI를 위한 런타임 정책 기반 가드레일 (guardrails)
안전 규칙을 고정된 분류 체계 (taxonomies)가 아닌 런타임 입력값으로 취급합니다.
빠른 추론 (fast reasoning) 또는 느린 추론 (slow reasoning)을 통해 텍스트, 이미지 및 교차 모달 (cross-modal) 콘텐츠를 판별합니다.
6개 제품군 및 35개 데이터셋에 대해 SOTA (State-of-the-Art)를 달성했습니다.
논문:
https://paperswithcode.co/paper/2606.22873
컬렉션:
https://huggingface.co/collections/inclusionAI/sing-guard
빠른-느린 멀티모달 안전성을 위한 2B, 4B, 8B 및 GGUF 변체들.
LLM은 실제로 침묵 속에서 생각할까요?
새로운 논문은 잠재적 사고 표현 (latent thought representations)을 감사하기 위해 네 가지 공리 — 인과성 (Causality), 최소성 (Minimality), 분리성 (Separability), 안정성 (Stability) — 를 공식화합니다. 어떤 오픈 웨이트 (open-weight) LLM도 이 네 가지를 모두 만족하지 않습니다. 대부분의 표현은 입력 임베딩 (input embedding) 자체 이외의 어떤 것도 인코딩하지 않습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기