arXiv논문2026. 04. 30. 15:23

SafeReview: LLM 기반 심사 시스템에 대한 적대적 숨은 프롬프트 방어

요약

본 논문은 LLM이 학술 동료 검토 시스템에 통합되면서 발생하는 적대적 프롬프트 공격 취약성에 대응하는 새로운 방어 프레임워크를 제안합니다. 이 시스템은 공격 프롬프트를 생성하는 Generator와 이를 탐지하는 Defender 모델을 공동으로 최적화하며, 정보 검색 GAN에서 영감을 받은 손실 함수를 사용합니다. 그 결과, 기존의 정적 방어 방식보다 진화하고 새로운 위협에 대해 훨씬 높은 저항력을 갖춘 강력한 심사 시스템 기반을 마련했습니다.

핵심 포인트

LLM 기반 동료 검토 시스템은 적대적 프롬프트 공격에 취약하여 학문적 건전성에 위협이 됩니다.
제안된 프레임워크는 Generator와 Defender 모델의 공동 최적화를 통해 방어 능력을 강화합니다.
정보 검색 GAN에서 영감을 받은 손실 함수를 사용하여 동적인 공진화(co-evolution)를 유도합니다.
이 접근 방식은 정적 방어보다 진화하는 공격 전략에 대해 월등히 높은 저항성을 제공합니다.

대형 언어 모델 (LLM) 이 학술 동료 검토 (academic peer review) 에 점차 통합됨에 따라, 제출물에 내장되어 결과를 조작하기 위한 적대적 프롬프트 (adversarial prompts) 에 대한 취약성은 학문적 건전성에 대한 중대한 위협으로 부상하고 있습니다. 이에 대응하기 위해, 우리는 복잡한 공격 프롬프트를 생성하도록 훈련된 Generator 모델과 이를 탐지하는 Defender 모델이 공동으로 최적화되는 새로운 적대적 프레임워크를 제안합니다. 이 시스템은 정보 검색 생성적 적대 신경망 (Information Retrieval Generative Adversarial Networks) 에서 영감을 받은 손실 함수를 사용하여 훈련되며, 두 모델 간의 동적 공진화를 촉진하여 Defender 가 지속적으로 개선되는 공격 전략에 대해 견고한 능력을 개발하도록 강제합니다. 결과적으로 도출된 프레임워크는 정적 방어에 비해 새로운 및 진화하는 위협에 대한 저항력이 현저히 향상됨을 보여주어, 동료 검토의 건전성을 보호하기 위한 중요한 기반을 마련합니다.

AI 자동 생성 콘텐츠

원문 바로가기

SafeReview: LLM 기반 심사 시스템에 대한 적대적 숨은 프롬프트 방어

요약

핵심 포인트

댓글