arXiv논문2026. 06. 19. 11:53

지렛대는 도달이 아니다: 언어 모델의 단일 뉴런 스티어링(Single-Neuron Steering)을 위한 제어 창 법칙

요약

언어 모델의 특정 뉴런을 조작하여 동작을 제어하는 '단일 뉴런 스티어링'의 예측 가능성을 다룬 연구입니다. 제어 창 법칙(Control Window Law) 프레임워크를 통해 뉴런 개입이 모델의 출력을 붕괴시키지 않고 일관되게 동작을 제어할 수 있는 범위를 이론적으로 규명합니다.

핵심 포인트

단일 뉴런 스티어링을 위한 예산 정규화된 제어 창 프레임워크 개발
잔차 노름과 쓰기 노름의 비율을 이용한 일관성 예산 개념 도입
뉴런 개입이 모델 출력을 붕괴시키지 않는 '붕괴 천장' 존재 확인
기존 그래디언트 기반 속성 방식의 한계를 극복하는 순전파 전용 스크리닝 제안
거부(refusal) 제어 시 일관된 우회와 엄격한 실행 가능성을 구분

정렬된(Aligned) 언어 모델은 거부(refusal) 및 언어 라우팅(language routing)과 같은 동작을 희소한 피드포워드 뉴런(sparse feed forward neurons)을 통해 제어하지만, 단일 뉴런 개입이 출력을 붕괴시키지 않고 어떻게 일관되게 동작을 제어하는지를 예측하는 이론은 아직 없습니다. 우리는 단일 뉴런 스티어링(single neuron steering)을 위한 예산 정규화된 제어 창(budget normalized control window) 프레임워크를 개발합니다. 하나의 쓰기 방향(write direction)을 따른 용량(dose)은 하나의 제어 좌표(control coordinate)로 축소됩니다. 이는 잔차 스트림(residual stream)과 쓰기(write) 사이의 정렬이며, 잔차 노름(residual norm)을 쓰기 노름(write norm)으로 나눈 값에 의해 설정된 일관성 예산(coherence budget) 단위의 보편적인 포화 곡선(saturation curve)을 따라 구동됩니다. 일관된 제어는 동작 트리거(behavior trigger)가 붕괴 천장(collapse ceiling) 아래에 있을 때 존재합니다. 동일한 좌표가 양성 모드 전환(benign mode switches)과 거부를 모두 지배합니다. 천장은 가중치(weights)와 하나의 일반적인 순전파(forward pass)로부터 도출되는 반면, 트리거는 롤아웃(rollout) 시점에 측정됩니다. 15개의 홀드아웃(held out) 뉴런에 대해, 예측된 천장의 평균 절대 오차(mean absolute error)는 0.14였으며, 벌크 레이어(bulk layers)에서는 약 0.07였습니다. 또한, 15개 중 10개를 맞춘 다수결 기준점(majority baseline)과 비교했을 때, 11개의 뉴런에서 확정적인 개방 또는 폐쇄 판정이 유지되었습니다. 폐쇄된 사례들은 법칙의 위반이라기보다는 세 가지 실패 모드를 드러냅니다: 트리거 전의 붕괴(collapse before trigger), 전파하기에 너무 얕은 깊이(too little depth to propagate), 또는 단일 뉴런이 밀어붙일 수 있는 범위를 제한하는 정규화(normalization)입니다. 이 법칙은 왜 국소적 그래디언트 속성(local gradient attribution)이 제어를 반대로 예측하는지를 설명합니다: 진정한 제어기(controllers)는 판독 축(readout axis)을 벗어나 쓰며, 거의 0에 가까운 1차 그래디언트(first order gradient)를 가집니다. 창(window)에 의해 정밀해진 순전파 전용 대조 스크리닝(forward only contrastive screen)은 속성(attribution) 방식이 놓치는 제어기들을 회복합니다. 가장 어려운 사례인 거부(refusal)의 경우, 개입의 성공은 스칼라(scalar)가 아닌 유형(typed)으로 구분됩니다: 일관된 우회(coherent bypass)와 엄격한 실행 가능한 도달(strict actionable reach)이 분리됩니다. 따라서 뉴런은 실행 가능한 내용이 없는 유창하고 작업에 적합한 텍스트 내에서 거부를 뒤집을 수 있으며, 진정한 실행 가능한 도달은 감사된 6개의 Llama 피벗(pivots) 중 3개에서만, 그리고 더 나중의 롤아웃 지평(rollout horizons)에서만 나타납니다. 그러므로 단일 뉴런 스티어링은 고정된 용량의 일화가 아니라, 제어 가능성(controllability)에 대한 예산화되고 유형화된 감사(audit)입니다.

AI 자동 생성 콘텐츠

원문 바로가기

지렛대는 도달이 아니다: 언어 모델의 단일 뉴런 스티어링(Single-Neuron Steering)을 위한 제어 창 법칙

요약

핵심 포인트

댓글