공유된 의미론, 분산된 메커니즘: 의미론과 메커니즘 정렬을 통한 비지도 특징 발견
요약
LLM의 내부 연산을 감사하기 위해 의미론적 내용과 메커니즘적 기여도를 결합한 새로운 비지도 특징 발견 방식을 제안합니다. 타겟 출력을 수동으로 지정하지 않고도 모델의 연속 분포 전반에 걸친 이질적인 특징들을 클러스터링하여 분석할 수 있습니다.
핵심 포인트
- 의미론적 임베딩과 메커니즘적 기여도를 결합한 분포 수준의 비지도 학습 방식 제안
- 속도-왜곡 목적 함수를 통해 의미론적·메커니즘적 일관성 사이의 균형 최적화
- 기존 단일 뷰 베이스라인이 놓치는 연속 문구 모드들을 효과적으로 발견
- 발견된 클러스터가 실행 가능한 메커니즘적 요인과 대응함을 입증
대규모 언어 모델 (LLM)이 점점 더 중대한 결정이 필요한 환경에 배치됨에 따라, 모델의 출력뿐만 아니라 이를 생성하는 내부 연산 (internal computations)을 감사할 수 있는 도구에 대한 필요성이 커지고 있습니다. 회로 분석 (Circuit analysis)은 기계론적 해석 가능성 (mechanistic interpretability)의 핵심적인 접근 방식이지만, 일반적으로 특정 타겟에 조건화되어 (target-conditioned), 선택된 완성 문구와 쌍을 이루는 단일 프롬프트를 설명하는 데 그칩니다. 이러한 타겟 조건부 설정은 모델의 연속 분포 (continuation distribution) 전반에 걸친 이질성을 가릴 수 있습니다. 본 연구에서는 타겟 출력을 수동으로 지정하지 않고, 의미론적 내용 (semantic content)과 시퀀스 수준의 메커니즘적 기여도 (mechanistic attributions)를 모두 사용하여 샘플링된 연속 문구들을 클러스터링하는 분포 수준의 비지도 특징 발견 (distribution-level unsupervised feature discovery) 방식을 소개합니다. 우리의 방법은 각 연속 문구를 의미론적 임베딩 (semantic embedding)과 접두사-연속 문구 기여도 시그니처 (prefix-to-continuation attribution signature)로 표현한 다음, 의미론적 일관성 (semantic coherence), 메커니즘적 일관성 (mechanistic consistency), 그리고 클러스터 세밀도 (cluster granularity) 사이의 균형을 맞추는 속도-왜곡 목적 함수 (rate-distortion objective)를 최적화합니다. 클러스터링 및 스티어링 (steering) 분석 전반에 걸쳐, 발견된 클러스터들은 단일 뷰 베이스라인 (single-view baselines)이 놓치는 연속 문구 모드들을 드러내며, 클러스터 시그니처가 실행 가능한 메커니즘적 요인에 대응한다는 개입 증거 (interventional evidence)를 제공합니다. 종합적으로, 우리의 접근 방식은 모델의 연속 분포 기저에 있는 메커니즘에 대한 확장 가능한 감사를 제공함으로써 회로 분석 및 행동 평가를 보완합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기