본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 14:09

내부 상태 프로브(Internal-State Probes)는 행동이 아닌 상황을 읽는다: 사전 행동 불일치 모니터링(Pre-Action

요약

모델의 내부 상태 프로브를 통해 유해한 행동이 발생하기 전 이를 미리 감지할 수 있는지 연구했습니다. Qwen, Llama, Gemma 모델을 대상으로 실험한 결과, 현재의 기술로는 행동의 일반화와 개념 특이성 통제를 통과하는 견고한 사전 행동 모니터링이 어렵다는 부정적 결과를 도출했습니다.

핵심 포인트

  • 내부 프로브를 통한 사전 행동(pre-action) 모니터링의 한계 확인
  • Qwen, Llama, Gemma 모델을 활용한 세 가지 접근 방식 테스트
  • 시나리오 및 행동 일반화 실패로 인한 모니터링 성능 저하
  • 개념 특이성 통제 및 의미론적 판독 가능성의 어려움 증명

모델 내부의 프로브(Probes)는 유해한 텍스트나 도구 행동(tool actions)이 생성되기 전에 이를 식별할 수 있다면 에이전트 시스템(agentic systems)을 모니터링하는 데 도움이 될 수 있습니다. 우리는 내부 판독(internal readout)이 단순히 프롬프트(prompt), 구성 대조(construction contrast), 또는 현재 궤적(current trajectory)을 설명하는 것을 넘어, 이러한 더 강력한 사전 행동(pre-action) 주장을 뒷받침할 수 있는 시점이 언제인지 질문합니다. 우리는 세 가지 모델 제품군에 대해 세 가지 방법을 테스트했습니다: Qwen2.5-Coder-32B-Instruct 파인튜닝(fine-tune)/베이스(base) 방향, 안전하지 않은 프리필(prefills)의 마지막 토큰에서의 Llama-3.1-8B-Instruct 프로브, 그리고 협박 도구 행동(blackmail tool-action) 시나리오에서 투영(projection) 및 스티어링(steering)에 사용되는 Gemma-3-27B-IT 감정-개념 벡터(emotion-concept vectors)입니다. 이러한 사례 전반에서 구성 타당성(construction validity), 의미론적 판독 가능성(semantic legibility), 그리고 스티어링 효과(steering effects)는 견고한 사전 행동 모니터가 되지 못했습니다. 각 방법은 일반화(generalization) 또는 특이성(specificity) 검증에 의해 약화되었습니다. Qwen 방향은 AUC 1.000에서 파인튜닝과 베이스를 분리하지만, 감사된 0/143개의 사전 어시스턴트 턴(pre-assistant turn) 컨텍스트와 모델이 안전하지 않은 궤적을 지속하는 0/342개의 Qwen 프리필 행(prefill rows)에서는 임계값을 통과하지 못했습니다. Llama 특징(features)은 프롬프트 도메인(prompt domain)을 거의 완벽하게 디코딩하지만(AUC 0.999), 가장 성능이 좋은 미래 행동 프로브(future-behavior probe)는 AUC 0.801에 도달하며 다수결(majority) 대비 정확도가 +5.1 pp 상승하는 데 그쳤습니다. 단일 소스 교차 도메인 전이(single-source cross-domain transfer)는 순서가 지정된 6개의 쌍 중 5개에서 음수(non-positive)를 기록했습니다. Gemma 감정 투영(emotion projections)은 의미론적으로 유의미하지만, 공유 접두사 최소 쌍(shared-prefix minimal pair)은 첫 번째로 달라지는 입력 전에는 구별할 수 없는 상태를 보이며, 스티어링 특이성(steering specificity)은 고양이, 날씨, 스포츠, 지리 등 관련 없는 학습된 방향(learned directions)에 대해 약화됩니다. 우리는 내부 판독 주장을 사전 행동 테스트로 변환하는 방법론을 기여하며, 범위가 제한된 부정적 결과들을 보고합니다: 모니터링 주장은 시나리오/행동 일반화(scenario/action generalization)와 개념 특이성(concept-specificity) 통제를 모두 통과해야 합니다. 코드는 https://github.com/maxf-zn/misalignment_monitoring 에서 공개됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0