본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 30. 15:23

SafeReview: LLM 기반 심사 시스템에 대한 적대적 숨은 프롬프트 방어

요약

본 논문은 LLM이 학술 동료 검토 시스템에 통합되면서 발생하는 적대적 프롬프트 공격 취약성에 대응하는 새로운 방어 프레임워크를 제안합니다. 이 시스템은 공격 프롬프트를 생성하는 Generator와 이를 탐지하는 Defender 모델을 공동으로 최적화하며, 정보 검색 GAN에서 영감을 받은 손실 함수를 사용합니다. 그 결과, 기존의 정적 방어 방식보다 진화하고 새로운 위협에 대해 훨씬 높은 저항력을 갖춘 강력한 심사 시스템 기반을 마련했습니다.

핵심 포인트

  • LLM 기반 동료 검토 시스템은 적대적 프롬프트 공격에 취약하여 학문적 건전성에 위협이 됩니다.
  • 제안된 프레임워크는 Generator와 Defender 모델의 공동 최적화를 통해 방어 능력을 강화합니다.
  • 정보 검색 GAN에서 영감을 받은 손실 함수를 사용하여 동적인 공진화(co-evolution)를 유도합니다.
  • 이 접근 방식은 정적 방어보다 진화하는 공격 전략에 대해 월등히 높은 저항성을 제공합니다.

대형 언어 모델 (LLM) 이 학술 동료 검토 (academic peer review) 에 점차 통합됨에 따라, 제출물에 내장되어 결과를 조작하기 위한 적대적 프롬프트 (adversarial prompts) 에 대한 취약성은 학문적 건전성에 대한 중대한 위협으로 부상하고 있습니다. 이에 대응하기 위해, 우리는 복잡한 공격 프롬프트를 생성하도록 훈련된 Generator 모델과 이를 탐지하는 Defender 모델이 공동으로 최적화되는 새로운 적대적 프레임워크를 제안합니다. 이 시스템은 정보 검색 생성적 적대 신경망 (Information Retrieval Generative Adversarial Networks) 에서 영감을 받은 손실 함수를 사용하여 훈련되며, 두 모델 간의 동적 공진화를 촉진하여 Defender 가 지속적으로 개선되는 공격 전략에 대해 견고한 능력을 개발하도록 강제합니다. 결과적으로 도출된 프레임워크는 정적 방어에 비해 새로운 및 진화하는 위협에 대한 저항력이 현저히 향상됨을 보여주어, 동료 검토의 건전성을 보호하기 위한 중요한 기반을 마련합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
6

댓글

0