arXiv논문2026. 06. 01. 11:31

EMBGuard: Embodied Agents의 안전한 계획 수립을 위한 위험 인지 가드레일 구축

요약

EMBGuard는 MLLM 기반 체화된 에이전트(Embodied Agents)의 물리적 위험을 식별하기 위한 안전 가드레일 프레임워크입니다. 에이전트 정책과 위험 추론을 분리하여 시각적 관찰과 행동 쌍을 평가하며, 소형 모델로도 고성능 모델에 필적하는 위험 인지 능력을 보여줍니다.

핵심 포인트

에이전트 정책과 분리된 독립적 위험 추론 메커니즘 제안
15.1K 규모의 EMBHazard 데이터셋 및 EMBGuardTest 벤치마크 공개
2B, 4B 소형 모델로 실시간 배포 가능한 수준의 성능 달성
오탐률을 낮추면서도 GPT-5.1, Gemini-2.5-Pro급 성능 구현

실제 환경에 배치된 MLLM (Multi-modal Large Language Model) 기반의 Embodied Agents (체화된 에이전트)는 물리적 위험 요소에 직면합니다. 그러나 기존의 방식들은 위험을 식별하고 행동 조건부 위험 (action-conditioned risks)에 대해 추론하는 명시적인 메커니즘이 부족하여, 에이전트가 위험한 상호작용을 놓치거나 혹은 위험을 과도하게 식별하는 문제를 초래합니다. 이를 해결하기 위해, 우리는 물리적 위험 추론을 에이전트 정책 (agent policy)으로부터 분리하도록 설계된 최초의 MLLM 기반 Embodied Agents용 안전 가드레일인 EMBGuard를 제안합니다. EMBGuard는 (시각적 관찰, 행동) 쌍을 평가함으로써 위험한 구성을 식별하고 잠재적 위험에 대한 자연어 설명을 제공합니다. EMBGuard와 더불어, 우리는 15.1K개의 행동 조건부 쌍으로 구성된 학습 데이터셋인 EMBHazard와, 7가지 물리적 위험 범주를 아우르는 329개의 수동 큐레이션된 실제 시나리오 벤치마크인 EMBGuardTest를 기여합니다. 위험 요소와 행동의 조합적 변형을 통해, 우리는 에이전트가 계획 수립 중에 마주칠 수 있는 다양한 위험 및 양호한 시나리오를 생성합니다. 소형 모델임에도 불구하고 (2B, 4B), EMBGuard는 실시간 배포를 방해하는 오탐률 (false-positive rates)을 크게 줄이면서도 독점적 MLLM (예: GPT-5.1, Gemini-2.5-Pro)과 경쟁할 만한 성능을 달성합니다. 우리는 코드, 데이터 및 모델을 https://github.com/dongwxxkchoi/EMBGuard 에서 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

EMBGuard: Embodied Agents의 안전한 계획 수립을 위한 위험 인지 가드레일 구축

요약

핵심 포인트

댓글