Transformer 언어 모델에서의 주의 집중적 화이트 베어 효과 (The Attentional White Bear Effect)
요약
Transformer 모델에서 지시어 기반 억제가 금지된 개념의 내부 표현을 실제로 제거하는지 조사한 연구입니다. 실험 결과, 억제된 개념은 은닉 표현과 어텐션 라우팅에 여전히 남아 있어 행동적 정렬과 표현적 정렬 사이의 격차를 보여줍니다.
핵심 포인트
- 금지된 개념은 억제 상태에서도 은닉 표현에 높은 회복성을 유지함
- 어휘적 회피에 성공하더라도 어텐션 라우팅에 지속적인 영향을 미침
- 행동적 정렬과 표현적 정렬 사이의 근본적인 불일치 확인
- 다양한 모델 제품군과 풀링 전략 전반에서 공통적으로 관찰됨
지시어 기반 억제 (Instruction-based suppression)는 언어 모델이 금지된 콘텐츠를 생성하는 것을 방지하기 위해 널리 사용되지만, 이러한 억제가 내부 표현 (internal representation)을 감소시키는지 아니면 단순히 표현 (expression)만을 억제하는지는 여전히 불분명합니다. 우리는 여러 Transformer 모델에 걸쳐 표현 프로빙 (representational probing), 어텐션 분석 (attention analysis), 그리고 행동적 의미론적 누출 (behavioral semantic leakage) 실험을 통해 이 문제를 조사합니다. 연구 결과, 억제 상태에서도 금지된 개념은 은닉 표현 (hidden representations)으로부터 매우 높은 회복 가능성을 유지하며, 어텐션 라우팅 (attention routing)에 계속해서 영향을 미치고, 어휘적 회피 (lexical avoidance)에 성공했음에도 불구하고 다운스트림 생성 (downstream generations)에 측정 가능한 영향을 미친다는 것을 발견했습니다. 이러한 효과는 풀링 전략 (pooling strategies), 간접적 의미 제어 (indirect semantic controls), 그리고 여러 모델 제품군 (model families) 전반에 걸쳐 지속됩니다. 우리의 결과는 행동적 정렬 (behavioral alignment)과 표현적 정렬 (representational alignment) 사이의 근본적인 격차를 드러냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기