arXiv논문2026. 06. 09. 11:53

로봇 학습 파이프라인을 침해하기 위한 월드 모델 (World Models) 타겟팅 공격

요약

월드 모델(World Models)을 이용한 로봇 학습 파이프라인 대상의 새로운 데이터 포이즈닝 공격 방식을 제안합니다. 겉보기에 안전한 데이터셋에 악의적인 프롬프트나 전이 역학을 주입하여, 월드 모델을 통해 위험한 로봇 정책이 생성되도록 유도할 수 있음을 입증했습니다.

핵심 포인트

월드 모델을 통한 은밀한 데이터 포이즈닝 공격 가능성 입증
안전한 데이터셋에 악의적 프롬프트/전이 역학 주입 방식 제안
액션 및 텍스트 조건부 월드 모델 모두에서 공격 효과 확인
심층 강화학습 및 VLA 설정에서의 백도어 공격 증명
로봇 학습 공급망 내 월드 모델 보안 재평가 필요성 강조

월드 모델 (World Models)은 로봇 학습 데이터를 생성하거나 실제 환경을 시뮬레이션하기 위한 데이터 효율적인 도구로서 최근 그 인기와 능력이 급격히 성장하고 있으며, 많은 연구가 이를 로봇 학습 파이프라인 (robot learning pipeline)에 통합할 것을 제안하고 있습니다. 매우 실용적임에도 불구하고, 본 연구에서는 월드 모델이 로봇 학습 공급망 (robot learning supply chain)에 독특하게 은밀하고 효과적인 데이터 포이즈닝 (data poisoning) 진입점을 제공한다는 것을 입증합니다. 이는 겉보기에 안전한 정답 (ground truth) 학습 데이터로 훈련되었음에도 불구하고, 안전하지 않거나 침해된 로봇 정책 (robotic policies)이 배포되는 결과로 이어질 수 있습니다. 판매되거나 업로드된 데이터셋에 위험한 궤적 (trajectories)을 직접 심는 전통적인 데이터 포이즈닝 (data poisoning) 기술과 달리, 우리의 새로운 공격 방법은 눈에 보이기에 안전한 원격 조작 (teleoperated) 데이터셋에 악의적인 프롬프트 (prompts)나 침해적인 전이 역학 (transition dynamics)을 주입하며, 이는 월드 모델을 통해 입력값으로 들어갈 때만 활성화됩니다. 이는 합성된 위험한 로봇 학습 궤적 (robot training trajectories)을 생성할 수 있으며, 결과적으로 안전하지 않거나 침해된 로봇 정책 (robot policies)을 초래할 수 있습니다. 우리는 최첨단 액션 조건부 (action conditioned) 및 텍스트 조건부 (text conditioned) 월드 모델 모두에 대한 공격의 효과를 입증하였으며, 다운스트림 심층 강화학습 (DRL) 정책에서의 완전한 엔드 투 엔드 (end-to-end) 백도어와 VLA 설정에 대한 개념 증명 (proof-of-concept)을 보여주었습니다. 전반적으로 이러한 발견은 더 안전한 월드 모델에 대한 연구와 로봇 학습 공급망 내에서의 월드 모델의 위치를 재평가할 필요성을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

로봇 학습 파이프라인을 침해하기 위한 월드 모델 (World Models) 타겟팅 공격

요약

핵심 포인트

댓글