상속된 회로, 학습된 의미론: 파인튜닝이 표준 평가에서 보이지 않는 회피 취약성을 생성하는 방식
요약
파인튜닝된 LLM이 보안 분류 작업에서 표준 정확도는 유지하면서도, 동작 보존 변환(PowerShell 별칭 치환 등)에는 취약해질 수 있음을 연구했습니다. 파인튜닝이 모델의 기존 구조를 취약한 지표 규칙으로 변환하여 새로운 공격 표면을 생성한다는 점을 경고합니다.
핵심 포인트
- 파인튜닝이 모델의 분류 회로를 취약한 지표 규칙으로 변환함
- 표준 평가 방식으로는 파인튜닝에 의한 회피 취약성을 발견하기 어려움
- PowerShell 명령 변형(별칭, 대소문자 등)에 대한 모델의 취약성 확인
- 선형 프로브 등을 활용한 배포 전 보안 모니터링 방법론 제안
보안 분류를 위해 파인튜닝(Fine-tuning)된 LLM(대규모 언어 모델)들은 대개 훈련 데이터와 동일한 분포를 가진 홀드아웃(held-out) 예시들로 평가됩니다. 우리는 이것이 파인튜닝 자체에 의해 도입된 취약성을 놓칠 수 있음을 보여줍니다. 모델은 토큰 수준의 지표 의미론(token-level indicator semantics)을 학습하여 표준적인 정확도는 유지하면서도, PowerShell 별칭 치환(alias substitution), 명령 재구성(command reconstruction), 문자열 생성(string construction), 실행 간접화(execution indirection), 대소문자 변형(case mutation)과 같은 동작 보존 변환(behavior-preserving transformations) 하에서는 실패할 수 있습니다. 우리는 일치하는 PowerShell 분류 코호트(cohorts)를 대상으로 Foundation-Sec-8B-Instruct와 그 베이스 모델인 Llama-3.1-8B-Instruct를 연구합니다. 인과적 개입(Causal interventions)을 통해 분류 회로(classification circuit)가 파인튜닝에 의해 생성된 것이 아니라 Llama로부터 상속된 후기 어텐션 경로(late-attention route)에 국한되어 있음을 확인했습니다. 파인튜닝은 이 상속된 구조를 집중시키고 의미론적으로 전문화하여, 기본 동작을 개선하는 동시에 변환에 민감한 공격 표면(attack surfaces)을 생성합니다. 3단계 회피 벤치마크(three-tier evasion benchmark) 결과, Foundation-Sec는 Llama가 공유하지 않는 iwr 치환, Invoke-Expression 재구성, 그리고 대소문자가 변형된 Invoke-Expression/IEX 변형들에서 실패함을 발견했습니다. 우리는 또한 배포 전 모니터링 방법도 도출했습니다: 분류 경계에서의 선형 프로브(linear probe)와 지표 토큰 부호 테스트(indicator-token sign test)는 파인튜닝 후 표준 지표의 역할이 변하는 명령 제품군을 식별합니다. 이러한 신호들은 표준 입력만을 사용하여 레드팀(red-team) 변형 생성을 우선순위화하며, 보안 파인튜닝이 작업 정확도는 향상시킬 수 있지만 회피 표면은 확장할 수 있음을 보여줍니다. 이러한 결과는 소규모 작업 특화 파인튜닝을 단순히 더 안전한 보안 분류기로 취급하는 것에 대해 경고합니다: 전문화는 상속된 모델 구조를 취약한 지표 규칙(brittle indicator rules)으로 변환하여, 홀드아웃 정확도는 유지하면서도 회피 표면을 확장할 수 있습니다. 견고한 AI 기반 보안을 위해서는 작업의 전체 변환 공간을 지정하고 파인튜닝을 통한 의미론적 드리프트(semantic drift)를 모니터링해야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기