arXiv논문2026. 05. 20. 12:03

비평가들이 의견이 일치하지 않을 때: RIS 지원 무선 제어 시스템에서의 적응형 보상 오염 공격

요약

본 논문은 RIS 지원 무선 네트워크 환경에서 Soft Actor-Critic(SAC) 에이전트를 대상으로 하는 새로운 적응형 보상 오염 공격인 DGRP를 제안합니다. DGRP는 SAC의 이중 비평가 간 불일치가 발생하는 지점을 공략하여 가치 추정을 왜곡하고 정책을 차선책으로 유도함으로써 네트워크 성능을 저하시킵니다. 연구 결과, DGRP는 기존의 주기적 또는 탐색 트리거 방식보다 더 큰 피해를 입히며 심층 강화학습의 강건성 확보를 위한 불일치 인지 위협 고려의 중요성을 시사합니다.

핵심 포인트

SAC 에이전트의 이중 비평가(dual critics) 간 불일치를 활용한 DGRP 공격 방식 제안
RIS 지원 인지 무선 네트워크 환경에서 전송률 최적화 과업을 방해하고 성능을 저하시킴
기존의 주기적 타이밍 및 탐색 트리거 기반 공격보다 더 높은 공격 효율성 입증
심층 강화학습 기반 무선 제어 시스템 설계 시 불일치 인지 위협에 대한 강건성 검토 필요성 강조

보상 오염 (Reward-poisoning) 공격은 학습 기반 무선 제어 시스템에 상당한 위험을 초래합니다. 이를 고려하여, 본 논문에서는 Soft Actor-Critic (SAC) 에이전트를 대상으로 하는 불일치 유도 보상 오염 (Disagreement-Guided Reward Poisoning, DGRP) 적응형 공격을 제안합니다. 재구성 가능한 지능형 표면 (Reconfigurable Intelligent Surfaces, RIS)의 지원을 받는 인지 무선 네트워크 (Cognitive Radio Network, CRN) 환경에서, SAC 에이전트는 SU 송신기의 전송 전력과 RIS 위상 변화 (phase shifts)를 동시에 최적화함으로써 2차 사용자 (Secondary Users, SUs)의 장기적인 전송률을 최대화하는 과업을 수행합니다. DGRP는 특히 SAC의 이중 비평가 (dual critics)가 상당한 불일치를 보일 때, 즉 영향력이 크고 불확실성이 높은 상태에서 보상을 오염시켜 가치 추정 (value estimations)을 왜곡하고 정책 (policy)을 차선책 (suboptimal actions)으로 유도합니다. 연구 결과, DGRP는 일반적으로 RIS가 제공하는 성능 향상을 실질적으로 감소시키고 전송 품질을 저하시킨다는 것을 입증했습니다. 나아가 우리는 주요 공격 파라미터를 조사하고 이것이 학습에 미치는 영향을 결정했습니다. 주기적 타이밍 (periodic-timing) 및 탐색 트리거 (exploration-triggered) 베이스라인과 비교했을 때, DGRP는 일관되게 더 큰 피해를 입혔으며, 이는 RIS 지원 네트워크에서 심층 강화학습 (Deep Reinforcement Learning, DRL)의 강건성 (robustness)을 평가할 때 불일치 인지 위협 (disagreement-aware threats)을 고려해야 할 필요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

비평가들이 의견이 일치하지 않을 때: RIS 지원 무선 제어 시스템에서의 적응형 보상 오염 공격

요약

핵심 포인트

댓글