능력과 강건성은 동시에 공짜일 수 없다: Vision-Language-Action 모델을 위한 정보 이론적 경계
요약
VLA 모델의 성능(Capability)과 강건성(Robustness) 사이의 이론적 트레이드오프를 정보 이론적 관점에서 증명한 연구입니다. 적대적 공격 상황에서 모델의 성능과 강건성의 합이 특정 상한선에 의해 제한됨을 수학적으로 밝혀냈습니다.
핵심 포인트
- VLA 모델의 능력과 강건성은 동시에 높이기 어렵다는 이론적 하한선 증명
- 태스크 엔트로피와 적대적 채널 용량의 합이 성능 상한을 결정
- OpenVLA-7B 모델 실험을 통해 이론적 경계 검증 완료
- 강건성 개선을 위한 새로운 비교 지표인 인코더 특화 슬랙 제안
Vision-Language-Action (VLA) 모델은 실제 로봇에 점점 더 많이 배치되고 있으며, 여기서 예측된 각 행동은 실행되고 각 실패는 안전 비용을 수반합니다. 이 모델들은 깨끗한 입력(clean inputs)에서는 높은 성공률을 달성하지만, 작은 적대적 섭동(adversarial perturbations) 하에서는 붕괴합니다. OpenVLA-7B에 대한 $16/255$ PGD 공격은 LIBERO 성공률을 $95%$ 이상에서 $5%$ 미만으로 떨어뜨립니다. 경험적인 방어(Empirical defenses) 기법들은 깨끗한 정확도(clean accuracy)의 희생을 대가로 어느 정도의 강건성(robustness)을 회복하지만, 기존 문헌에서는 이러한 트레이드오프(trade-off)에 이론적인 하한선(theoretical floor)이 있는지 밝히지 않았습니다. 우리는 그것이 존재함을 증명합니다. 이산적 행동(discrete actions)을 가진 모든 VLA 정책(policy)에 대해, 능력(capability, 정책 행동과 오라클 행동 사이의 상호 정보량)과 강건성(robustness, 적대적 섭동 하에서 보존되는 상호 정보량, 사소한 채널 누출 제외)의 합은 정책과 무관한 예산(budget)에 의해 상한이 제한됩니다: 즉, 태스크 엔트로피(task entropy)와 적대적 채널 용량(adversarial channel capacity)의 합입니다. 이 증명은 데이터 처리 부등식(Data Processing Inequality)과 상호 정보량(MI)의 비음성(non-negativity)을 두 번 적용한 결과입니다. 픽셀 수준의 경계(pixel-level bound)는 현재 모델에서 느슨하지만($\sim 10^3$ nats), 인코더 특화 추론(encoder-specific corollary)은 채널을 정책 관련 부분 공간(policy-relevant subspace)으로 제한하여 OpenVLA에서의 예산을 $\sim 5,000$에서 $\sim 31$ nats로 줄입니다. 정책은 이미 이 더 타이트한 예산의 $\sim 24%$를 소비하고 있으며, 이는 강건성을 동시에 개선할 수 있는 여지가 제한적임을 의미합니다. 우리는 $252$개의 폐쇄형 가우시안-VLA(Gaussian-VLA) 셀과 $48$개의 OpenVLA-7B $\times$ LIBERO $\times$ PGD 셀을 통해 이 경계를 검증했습니다(위반 사례 0건). 우리는 방어 관련 논문들을 위한 정규화된 비교 축으로서 인코더 특화 슬랙(encoder-specific slack)을 제안하며, 모든 코드, 매니페스트(manifests) 및 결과를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기