추론 LLM의 숨겨진 기만 행위 해독: 기만 감사(Deception Auditing)를 위한 활성화 설명기(Activation
요약
LLM의 기만적 행동을 탐지하고 그 이유를 설명하기 위한 새로운 활성화 설명기인 STATEWITNESS를 소개합니다. 이 모델은 은닉 상태를 분석하여 자연어 질의에 답하거나 구조화된 보고서를 생성함으로써 기존의 단순 점수 방식보다 높은 성능과 검사 가능한 증거를 제공합니다.
핵심 포인트
- 기만 감사(Deception Auditing)를 위한 STATEWITNESS 모델 제안
- 기존 텍스트 모니터 및 활성화 프로브 대비 높은 AUROC 성능 달성
- 자연어 질의 답변 및 구조화된 보고서를 통한 검사 가능한 증거 제공
- 해석 가능성(Interpretability) 및 정렬(Alignment) 연구의 핵심 도구로 활용 가능
LLM(Large Language Models)이 더 강력한 추론 능력을 갖추게 됨에 따라, 기만적 행동(deceptive behavior)은 점점 더 심각한 안전 문제로 부상하고 있습니다. 기존의 기만 모니터(deception monitors)는 가시적인 대화 기록(transcripts)에 점수를 매기거나 표현 벡터(representation vectors)로부터 스칼라 프로브 점수(scalar probe scores)를 도출하는데, 이는 왜 특정 응답이 의심스러운지에 대한 검사 가능한 증거를 거의 남기지 않습니다. 우리는 기만 감사(deception auditing)를 위한 활성화 설명기(activation explainer)인 STATEWITNESS를 소개합니다. 별도의 디코더(decoder)가 대상 모델의 은닉 상태(hidden states)를 읽고, 이에 대해 자연어 질의에 답하거나 구조화된 보고서를 생성합니다. 우리는 7개의 기만 데이터셋에 대해 두 개의 대상 추론 LLM을 사용하여 STATEWITNESS를 평가했습니다. STATEWITNESS는 평균 AUROC 0.916을 달성하였으며, 이는 동일한 평가 프로토콜 하에서 가장 우수한 블랙박스 텍스트 모니터(black-box text monitor)보다 11.6%, 가장 우수한 활성화 프로브(activation-probe) 베이스라인보다 25.0% 더 높은 상대적 이득을 보였습니다. 기존 모니터와 결합했을 때, STATEWITNESS는 단순 임계값 앙상블(threshold ensembles)에서 놓친 기만 사례를 줄여줍니다. 스칼라 탐지를 넘어, 이 디코더는 인간의 검사를 위해 질의 수준의 답변, 스키마 보고서(schema reports), 그리고 토큰(token) 또는 문장(sentence) 수준의 증거 추적(evidence traces)을 반환합니다. 우리는 이 인터페이스를 더 넓은 해석 가능성(interpretability) 및 정렬(alignment) 도구를 위한 잠재적인 빌딩 블록(building block)으로 간주합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기