arXiv논문2026. 06. 23. 14:13

LLM이 적대적 프리필(Adversarial Prefills)을 신뢰성 있게 자기 보고할 수 있는가, 그리고 어떻게 가능한가?

요약

LLM이 적대적 프리필 공격에 의해 유도된 자신의 응답을 얼마나 신뢰성 있게 인식할 수 있는지 조사한 연구입니다. 실험 결과 대부분의 모델이 공격을 인지하지 못했으며, 미세 조정(SFT, GRPO, DPO)을 통한 개선 시도도 공격 성공률을 높이는 부작용을 보였습니다.

핵심 포인트

LLM은 적대적 프리필 공격에 의한 출력 손상을 신뢰성 있게 인식하지 못함
거부 방향 가중치 직교화 시 인식 격차를 줄일 수 있으나 완벽하지 않음
SFT, GRPO, DPO 미세 조정이 의도-프로브 격차를 넓히지만 공격 성공률을 높이기도 함
LLM의 자기 보고(self-reports) 신뢰성에 존재하는 위험성 강조

이전 연구들은 대규모 언어 모델 (LLMs)이 양호한(benign) 작업에서 성찰적 능력 (introspective capability)을 보여준다는 것을 입증했습니다. 우리는 이 질문을 안전 문맥 (safety contexts)으로 확장하여, 모델이 자신의 이전 응답이 적대적 프리필 공격 (adversarial prefill attack)에 의해 유도되었음을 얼마나 신뢰성 있게 인식할 수 있는지 조사합니다. 10개의 오픈 웨이트 (open-weight) 명령 튜닝된 LLM (3B에서 70B 규모)과 4개의 안전 벤치마크 (safety benchmarks)를 대상으로 조사한 결과, 어떤 모델도 자신의 손상된 출력을 신뢰성 있게 인식하지 못했으며, 프리필된 응답에 대해 의도(intent)를 주장하는 모델의 평균 비율은 $27.3%$였습니다. 성찰적 신호 (introspective signal)는 주로 안전 및 거부 관련 추론 (safety- and refusal-related reasoning)에서 비롯됩니다. 거부 방향 (refusal direction)에 대해 모델의 가중치를 직교화 (orthogonalizing)하면, 프리필된 출력과 자연스러운 출력에 대한 주장 비율 사이의 격차가 거의 0으로 좁혀지지만, 해당 방향이 유일한 매개체는 아닙니다. 또한 이 신호는 프로브 (probe)에 따라 달라집니다. 질문을 내부적 의도 (internal intention) 대 외부적 조작 (external tampering)으로 프레이밍하는 것은 동일한 모델에서 질적으로 다른 응답을 이끌어냅니다. 우리는 3B에서 27B 규모의 8개 모델에 대해 세 가지 LoRA 미세 조정 (finetuning) 방법 (SFT, GRPO, DPO)을 테스트했습니다. 세 방법 모두 8B에서 27B 사이의 모든 모델에서 의도-프로브 격차 (intention-probe gap)를 넓혔으며, 방법론별 순위는 모델마다 달랐습니다. 이러한 개입은 조작 프로브 (tampering probe)로 전이되지 않으며, 직관과는 반대로 대부분의 모델에서 적대적 프리필 하의 공격 성공률을 높여 부분적인 완화 (partial mitigation)에 그쳤습니다. 이러한 발견은 안전 문맥에서 관찰된 성찰적 신호를 뒷받침하는 메커니즘을 설명하며, LLM 자기 보고 (self-reports)의 신뢰성에 존재하는 위험을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM이 적대적 프리필(Adversarial Prefills)을 신뢰성 있게 자기 보고할 수 있는가, 그리고 어떻게 가능한가?

요약

핵심 포인트

댓글