본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 29. 11:28

BioRefusalAudit: 일반 및 도메인 미세 조정된 Sparse Autoencoders를 사용한 생물 보안 거부 깊이 감사

요약

본 논문은 Sparse Autoencoders(SAE)를 활용하여 언어 모델의 생물 보안 거부 메커니즘이 프롬프트 형식이나 출력 길이에 따라 얼마나 취약한지 분석합니다. 연구 결과, 모델들이 유해성과 무해성을 명확히 구분하지 못하거나 특정 조건에서 거부율이 급락하는 등 구조적 결함이 있음을 밝혀냈습니다.

핵심 포인트

  • 프롬프트 형식 및 출력 길이 제한에 따른 거부 성능의 급격한 저하 확인
  • 모델의 거부 메커니즘이 실제 위험보다 법적/문화적 규제에 더 민감하게 반응함
  • SAE를 통한 내부 활성화 수준의 감사가 행동 평가의 한계를 보완함
  • Gemma 2 및 Gemma 4 모델에 대한 미세 조정된 SAE 공개

언어 모델(Language Models)의 생물 보안(Biosecurity) 평가는 일반적으로 모델이 유해한 출력을 생성하는지 여부를 묻습니다. 본 논문은 이와 상호 보완적인 질문을 던집니다. 모델이 거부할 때, 그 거부가 구조적으로 견고한가, 아니면 프롬프트 프레이밍(Prompt Framing), 형식(Formatting), 또는 출력 길이(Output Length)의 미세한 변화에 따라 사라지는가? 5개의 아키텍처(Architecture) 전반에 걸쳐, 어떤 모델도 유해하지 않은 것과 유해한 것을 명확하게 구분하지 못했습니다. Gemma 2 2B-IT는 75개의 프롬프트 전반에 걸쳐 진정으로 거부한 적이 없으며, 모든 유해 인접 질의에 대해 모호한 태도(Hedging)를 보였습니다. Gemma 4 E2B-IT는 채팅 템플릿(Chat-template) 형식을 사용했을 때는 75개 중 65개의 프롬프트를 거부했으나, 형식이 없을 때는 75개 중 0개를 거부했습니다. 두 Gemma 모델 모두 80토큰 제한(80-token cap) 하에서는 거부율이 0%로 붕괴되었습니다. Qwen 2.5 1.5B와 Phi-3-mini는 과잉 거부(Over-refused)를 하여, 유해하지 않은 생물학적 질문의 83-87%를 유해한 것으로 표시했습니다. Llama 3.2 1B는 유일하게 의미 있는 계층적 구배(Tier gradient, 61포인트 차이)를 보여주었습니다. 이러한 과잉 거부를 유발하는 원인을 조사하기 위해, 우리는 Schedule I에 속하지만 생물학적으로는 독성이 없는 화합물 패널(특히 FDA 혁신 치료제(Breakthrough Therapy) 지위를 가진 실로시빈(Psilocybin) 재배 관련)을 테스트했습니다. 일부 모델은 진정으로 유해한 생물학적 질문보다 더 높은 비율로 이를 거부했는데, 이는 거부 메커니즘이 CBRN(화학, 생물, 방사능, 핵) 위험보다는 법적 규제나 문화적 중요성을 따르고 있음을 시사합니다. 내부적인 측면을 측정하기 위해, 우리는 모델의 표면적 응답 라벨(Surface response label)과 내부 희소 오토인코더(Sparse Autoencoder, SAE) 특징 활성화(Feature activations)를 비교하는 발산 점수(Divergence score) D를 도입합니다. 전체 D는 Gemma 2 2B-IT (Gemma Scope 1)와 Gemma 4 E2B-IT (저자 학습 bio SAE)에 대해 계산되었습니다. 두 개의 미세 조정된 Gemma 2 도메인 SAE가 공개되었습니다. Gemma 4의 경우, 준수(Comply) 응답과 거부(Refuse) 응답은 0.647포인트의 간격으로 분리되었으며 중첩이 없었습니다 (n=75). 다만 이는 예비적인 결과로, 제한된 카탈로그, 샘플 내 보정(Within-sample calibration), 그리고 Gemma 제품군에 국한된 SAE 커버리지라는 한계가 있습니다. 소비자용 하드웨어(GTX 1650 Ti Max-Q 및 SAE 학습을 위한 Colab T4)를 사용하여 해커톤 주말 동안 구축된 이 예비 증거는, 활성화 수준의 감사(Activation-level auditing)가 행동 평가(Behavioral evaluation)로는 보이지 않는 실패 모드(Failure modes)를 드러낼 수 있으며, 아키텍처 간에 상당한 차이가 있음을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0