LLM 자기 인식: 활성화 시그니처 (Activation Signatures)의 제어 및 검색
요약
LLM이 생성한 텍스트 내에 모델 고유의 '자기 인식 시그니처'를 암묵적으로 인코딩할 수 있음을 입증한 연구입니다. 잔차 스트림 제어를 통해 텍스트 품질 저하 없이 98% 이상의 높은 정확도로 모델을 식별할 수 있는 메커니즘을 제안합니다.
핵심 포인트
- LLM의 내부 활성화 신호를 통한 자기 인식 능력 확인
- 잔차 스트림 제어로 모델 식별용 지문(Fingerprint) 생성
- 텍스트 품질 유지 및 98% 이상의 높은 탐지 정확도 달성
- 외부 삽입 방식이 아닌 모델의 자연스러운 표현 구조 활용
최근 해석 가능성 (Interpretability) 분야의 발전은 거대 언어 모델 (LLMs)이 생성된 텍스트 내에 자신의 출력을 자기 인식 (Self-recognition)할 수 있게 하는 신호를 암묵적으로 인코딩하고 있음을 시사합니다. 본 연구에서는 이러한 능력이 엔트로피가 낮은 (Low-entropy) 시나리오에서도 신뢰할 수 있으며, 표적화된 개입 (Targeted intervention)을 통해 증폭될 수 있음을 입증합니다. 생성 과정 중 무작위 희소 벡터 (Random sparse vector)를 사용하여 내부 잔차 스트림 (Residual stream)을 제어함으로써, 특정 LLM에 주어진 텍스트의 귀속 (Attribution)을 가능하게 하는 탐지 가능한 지문 (Fingerprint)을 생성합니다. 이 신호는 탐지기로 사용되는 LLM의 활성화 (Activations)로부터 복구 가능하며, 생성된 텍스트의 품질을 유지하면서도 여러 탐지 설정에서 98% 이상의 정확도를 달성합니다. AI 생성 콘텐츠가 급증함에 따라, 이 접근 방식은 신호를 외부에 삽입하는 대신 모델의 자연스러운 표현 구조 (Representation structure)를 귀속에 활용함으로써 기존 탐지기들에 대한 실질적인 대안을 제공합니다. 본 연구의 기여는 다음과 같습니다: (i) LLM의 신뢰할 수 있는 자기 인식 능력 확립, (ii) 품질 저하 없이 다중 LLM 식별을 가능하게 하는 간단한 제어 메커니즘 (Steering mechanism), (iii) 활성화 공간 (Activation spaces)이 의미론적 간섭 (Semantic interference) 없이 신호를 인코딩할 수 있는 활용 가능한 구조를 포함하고 있음을 입증함.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기