arXiv논문2026. 06. 05. 13:47

LLM 자기 인식: 활성화 시그니처 (Activation Signatures)의 제어 및 검색

요약

LLM이 생성한 텍스트 내에 모델 고유의 '자기 인식 시그니처'를 암묵적으로 인코딩할 수 있음을 입증한 연구입니다. 잔차 스트림 제어를 통해 텍스트 품질 저하 없이 98% 이상의 높은 정확도로 모델을 식별할 수 있는 메커니즘을 제안합니다.

핵심 포인트

LLM의 내부 활성화 신호를 통한 자기 인식 능력 확인
잔차 스트림 제어로 모델 식별용 지문(Fingerprint) 생성
텍스트 품질 유지 및 98% 이상의 높은 탐지 정확도 달성
외부 삽입 방식이 아닌 모델의 자연스러운 표현 구조 활용

최근 해석 가능성 (Interpretability) 분야의 발전은 거대 언어 모델 (LLMs)이 생성된 텍스트 내에 자신의 출력을 자기 인식 (Self-recognition)할 수 있게 하는 신호를 암묵적으로 인코딩하고 있음을 시사합니다. 본 연구에서는 이러한 능력이 엔트로피가 낮은 (Low-entropy) 시나리오에서도 신뢰할 수 있으며, 표적화된 개입 (Targeted intervention)을 통해 증폭될 수 있음을 입증합니다. 생성 과정 중 무작위 희소 벡터 (Random sparse vector)를 사용하여 내부 잔차 스트림 (Residual stream)을 제어함으로써, 특정 LLM에 주어진 텍스트의 귀속 (Attribution)을 가능하게 하는 탐지 가능한 지문 (Fingerprint)을 생성합니다. 이 신호는 탐지기로 사용되는 LLM의 활성화 (Activations)로부터 복구 가능하며, 생성된 텍스트의 품질을 유지하면서도 여러 탐지 설정에서 98% 이상의 정확도를 달성합니다. AI 생성 콘텐츠가 급증함에 따라, 이 접근 방식은 신호를 외부에 삽입하는 대신 모델의 자연스러운 표현 구조 (Representation structure)를 귀속에 활용함으로써 기존 탐지기들에 대한 실질적인 대안을 제공합니다. 본 연구의 기여는 다음과 같습니다: (i) LLM의 신뢰할 수 있는 자기 인식 능력 확립, (ii) 품질 저하 없이 다중 LLM 식별을 가능하게 하는 간단한 제어 메커니즘 (Steering mechanism), (iii) 활성화 공간 (Activation spaces)이 의미론적 간섭 (Semantic interference) 없이 신호를 인코딩할 수 있는 활용 가능한 구조를 포함하고 있음을 입증함.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 자기 인식: 활성화 시그니처 (Activation Signatures)의 제어 및 검색

요약

핵심 포인트

댓글