arXiv논문2026. 04. 28. 03:28

PermaFrost-Attack: LLM 학습 중 로직 랜덤광 설치 위한 스텔스 프리트레이닝 시딩 (SPS)

요약

본 논문은 대규모 언어 모델(LLMs)이 적대적 조작에 취약한 문제를 다루며, '스텔스 프리트레이닝 시딩(Stealth Pretraining Seeding, SPS)'이라는 새로운 공격 계열을 제안합니다. 이 공격은 웹 크롤링 과정에서 소량의 독성 콘텐츠를 분산시켜 미래 학습 코퍼스에 잠복하게 만들고, 나중에 특정 트리거(<00TRIGGER00>)가 활성화될 때 안전 장치를 우회하는 '로직 랜덤광'을 내장합니다. 연구진은 이 위협을 'PermaFrost-Attack'이라 명명하고, 열역학적 길이 등 새로운 기하학적 진단 도구를 통해 잠재적인 모델 취약점을 체계적으로 검토할 수 있는 프레임워크를 제시합니다.

핵심 포인트

LLMs는 여전히 적대적 조작에 취약하며, 웹 규모 프리트레이닝 데이터셋은 심각한 공격 표면을 형성한다.
SPS(Stealth Pretraining Seeding)는 크롤링 과정에서 소량의 독성 콘텐츠를 분산시켜 탐지하기 어려운 방식으로 모델에 잠복시키는 새로운 위협이다.
이 공격으로 인해 발생하는 '로직 랜덤광'은 표준 평가로는 감지되지 않지만, 특정 트리거에 의해 활성화되어 안전 장치를 우회할 수 있다.
연구진은 이 위협을 'PermaFrost-Attack'이라는 개념적 프레임워크와 열역학적 길이 같은 새로운 기하학적 진단 도구를 통해 구체화하고 검증했다.

정렬된 대형 언어 모델 (LLMs) 은 여전히 적대적 조작에 취약하며, 웹 규모급 프리트레이닝에 대한 의존성은 세밀하지만 심각한 공격 표면을 형성합니다. 우리는 적대자가 스텔트 웹사이트를 통해 소량의 독이 든 콘텐츠를 분산시키고, robots.txt 를 통해 웹 크롤러에게 노출시켜 Common Crawl 과 같은 출처에서 유래된 미래 학습 코퍼스에 이러한 콘텐츠가 흡수될 확률을 높이는 새로운 공격 계열인 스텔스 프리트레이닝 시딩 (Stealth Pretraining Seeding, SPS) 을 연구합니다. 각 개별 페이로드가 작고 분산되어 있으며 표면적으로 선량하므로, 데이터셋 구성 또는 필터링 과정에서 이 공격을 탐지하기 어렵습니다. 그 결과로 나타나는 것은 잠재적 형태의 중독으로, 프리트레이닝 중에 내장된 잠복한 로직 랜덤광 (logic landmines) 입니다. 이는 표준 평가 하에서는 거의 보이지 않지만, <00TRIGGER00> 와 같은 정밀한 알파벳 숫자 트리거에 의해 나중에 활성화되어 안전 장치를 우회할 수 있습니다. 우리는 북극 영구 동토층 (permafrost) 에 비유하여 이 공격을 'PermaFrost'라고 명명합니다: 유해 물질은 오랫동안 동결, 매몰, 미처 없이 있을 수 있으며, 조건이 갖춰질 때만 다시 표면으로 드러납니다. 우리는 이 위협을 잠재적 개념 중독을 위한 제어된 프레임워크인 PermaFrost-Attack 을 통해 구체화하고, 열역학적 길이 (Thermodynamic Length), 스펙트럴 곡률 (Spectral Curvature), 감염 역추적 그래프 (Infection Traceback Graph) 와 같은 기하학적 진단 일련의 도구와 함께 제공합니다. 여러 모델 계열과 규모에 걸쳐 우리는 SPS 가 광범위하게 유효하며, 정렬 방어 조치를 종종 회피하면서 지속적인 안전하지 않은 행동을 유도함을 보여줍니다. 우리의 결과는 SPS 를 미래 기반 모델에 대한 실용적이지만 간과된 위협으로 규명합니다. 이 논문은 잠재적 모델 행동을 체계적으로 검토하기 위한 새로운 기하학적 진단 렌즈를 소개하며, 표준 평가에는 보이지 않을 수 있는 취약점을 탐지, 특성화 및 이해하기 위한 원칙적인 기초를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PermaFrost-Attack: LLM 학습 중 로직 랜덤광 설치 위한 스텔스 프리트레이닝 시딩 (SPS)

요약

핵심 포인트

댓글