arXiv논문2026. 06. 26. 10:48

상속된 회로, 학습된 의미론: 파인튜닝이 표준 평가에서 보이지 않는 회피 취약성을 생성하는 방식

요약

파인튜닝된 LLM이 보안 분류 작업에서 표준 정확도는 유지하면서도, 동작 보존 변환(PowerShell 별칭 치환 등)에는 취약해질 수 있음을 연구했습니다. 파인튜닝이 모델의 기존 구조를 취약한 지표 규칙으로 변환하여 새로운 공격 표면을 생성한다는 점을 경고합니다.

핵심 포인트

파인튜닝이 모델의 분류 회로를 취약한 지표 규칙으로 변환함
표준 평가 방식으로는 파인튜닝에 의한 회피 취약성을 발견하기 어려움
PowerShell 명령 변형(별칭, 대소문자 등)에 대한 모델의 취약성 확인
선형 프로브 등을 활용한 배포 전 보안 모니터링 방법론 제안

보안 분류를 위해 파인튜닝(Fine-tuning)된 LLM(대규모 언어 모델)들은 대개 훈련 데이터와 동일한 분포를 가진 홀드아웃(held-out) 예시들로 평가됩니다. 우리는 이것이 파인튜닝 자체에 의해 도입된 취약성을 놓칠 수 있음을 보여줍니다. 모델은 토큰 수준의 지표 의미론(token-level indicator semantics)을 학습하여 표준적인 정확도는 유지하면서도, PowerShell 별칭 치환(alias substitution), 명령 재구성(command reconstruction), 문자열 생성(string construction), 실행 간접화(execution indirection), 대소문자 변형(case mutation)과 같은 동작 보존 변환(behavior-preserving transformations) 하에서는 실패할 수 있습니다. 우리는 일치하는 PowerShell 분류 코호트(cohorts)를 대상으로 Foundation-Sec-8B-Instruct와 그 베이스 모델인 Llama-3.1-8B-Instruct를 연구합니다. 인과적 개입(Causal interventions)을 통해 분류 회로(classification circuit)가 파인튜닝에 의해 생성된 것이 아니라 Llama로부터 상속된 후기 어텐션 경로(late-attention route)에 국한되어 있음을 확인했습니다. 파인튜닝은 이 상속된 구조를 집중시키고 의미론적으로 전문화하여, 기본 동작을 개선하는 동시에 변환에 민감한 공격 표면(attack surfaces)을 생성합니다. 3단계 회피 벤치마크(three-tier evasion benchmark) 결과, Foundation-Sec는 Llama가 공유하지 않는 iwr 치환, Invoke-Expression 재구성, 그리고 대소문자가 변형된 Invoke-Expression/IEX 변형들에서 실패함을 발견했습니다. 우리는 또한 배포 전 모니터링 방법도 도출했습니다: 분류 경계에서의 선형 프로브(linear probe)와 지표 토큰 부호 테스트(indicator-token sign test)는 파인튜닝 후 표준 지표의 역할이 변하는 명령 제품군을 식별합니다. 이러한 신호들은 표준 입력만을 사용하여 레드팀(red-team) 변형 생성을 우선순위화하며, 보안 파인튜닝이 작업 정확도는 향상시킬 수 있지만 회피 표면은 확장할 수 있음을 보여줍니다. 이러한 결과는 소규모 작업 특화 파인튜닝을 단순히 더 안전한 보안 분류기로 취급하는 것에 대해 경고합니다: 전문화는 상속된 모델 구조를 취약한 지표 규칙(brittle indicator rules)으로 변환하여, 홀드아웃 정확도는 유지하면서도 회피 표면을 확장할 수 있습니다. 견고한 AI 기반 보안을 위해서는 작업의 전체 변환 공간을 지정하고 파인튜닝을 통한 의미론적 드리프트(semantic drift)를 모니터링해야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

상속된 회로, 학습된 의미론: 파인튜닝이 표준 평가에서 보이지 않는 회피 취약성을 생성하는 방식

요약

핵심 포인트

댓글