LLM에 fMRI를 실행해 보았습니다: 개념은 영역이 아니라 방향입니다

요약

LLM의 내부 활성화 데이터를 분석하여 개념이 특정 뉴런 영역이 아닌 벡터 공간 내의 특정 방향(direction)으로 저장됨을 증명했습니다. Qwen2.5, Gemma-2, Gemma-4 모델을 통해 개념이 분산된 형태로 존재하며, 잔차 스트림을 통해 가산적으로 공존한다는 메커니즘을 밝혀냈습니다.

핵심 포인트

개념은 특정 뉴런이 아닌 활성화 공간 내의 단일 방향으로 존재함
특정 유닛 제거보다 분산된 방향 제거 시 모델 성능에 더 큰 영향을 미침
잔차 스트림은 레이어 전반에 걸쳐 기여도가 합산되는 공유 버스 역할을 함
개념은 본질적으로 랭크-1(rank-1)이며 모든 레이어 깊이에 존재함

요약 (TL;DR)

저는 "LLM을 위한 fMRI"를 실행해 왔습니다. 즉, 밀집형 오픈 모델(Qwen2.5-7B, Gemma-2-9B, Gemma-4-12B)의 전체 내부 활성화(internal activations)를 캡처하고, 의미가 어떻게 조직되는지 매핑하기 위해 신경과학적 방법론을 적용했습니다. 인과적으로 확인되었으며 세 모델 모두에서 나타난 핵심 결과는 다음과 같습니다: 개념은 뉴런의 특정 영역에 저장되는 것이 아니라, 활성화 공간(activation space) 내의 단일 방향(direction)입니다.

1. 의미는 영역(region)이 아니라 방향(direction)에 존재한다

뇌에서는 범주(categories)가 국소적인 영역에 존재합니다 (예: 얼굴 → 방추상 안면 영역(fusiform face area)). 하지만 LLM은 그 반대입니다.

분산되고 중첩된 코드 (Distributed, superposed code). 10개 범주에 대한 선형 프로브(linear probe)는 우연을 훨씬 상회하는 디코딩 성능을 보였으나 (Gemma-2 0.97, Qwen 0.80), "가장 선택적인(most selective)" 유닛들은 자극의 두 무작위 절반 사이에서 재현되지 않았습니다 (중첩 ≈ 0.00–0.05). 찾아낼 수 있는 "동물 뉴런" 같은 것은 없습니다.
인과적 증명 (Causal proof). 가장 선택적인 20개 유닛을 제거(ablating)했을 때 하위 범주 정확도의 변화는 ~0이었습니다 (20개의 무작위 유닛을 제거했을 때와 동일). 하지만 **하나의 분산된 방향(distributed direction)**을 제거했을 때는 성능이 붕괴되었습니다 — 평균 ΔAUC가 최대 +0.52까지 변화했습니다 (Qwen). 이는 세 모델 모두에서 사실로 확인되었습니다.

따라서 범주는 **하나의 방향에 국소화(localized)**되어 있지만, 그 방향은 3584개의 뉴런 중 약 2000개에 걸쳐 퍼져 있으며, 어떤 뉴런인지는 재현 불가능합니다. 국소화는 해부학적 구조가 아니라 벡터 공간(vector space) 내에서 일어납니다.

2. 개입(intervention)을 통해 밝혀낸 메커니즘

잔차 스트림(residual stream)은 공유된 가산 버스(shared additive bus)입니다. N개의 연속된 레이어에서 개념 방향을 주입하는 것은 한 레이어에서 N배의 크기를 주입하는 것과 같습니다 — 비율 = 모든 N에 대해 1.00. 스트림은 말 그대로 레이어 전반에 걸쳐 기여도를 합산합니다.
오직 상대적 크기만이 코딩됩니다. 잔차 스트림 전체를 0.25×~4×로 스케일링해도 출력 변화는 0입니다 (RMSNorm이 이를 나누어 제거함). 오직 개념 방향을 따른 성분만을 스케일링하면 → 깔끔하고 단조로운(monotonic) 개념 변화가 나타납니다. 즉, 의미 = 벡터의 길이가 아니라 방향을 따른 투영(projection)입니다.

3. 네트워크의 어느 정도가 하나의 개념인가? (깊이 연구)

엄격한 통제 조건(카테고리당 120개의 자극, 아키텍처가 일치하는 학습되지 않은 쌍둥이(untrained twin), 훈련/테스트 간 프레임 누출이 없도록 단어 그룹별 분할) 하에서:

개념은 본질적으로 랭크-1(rank-1)입니다 — 하나의 방향이며, **모든 깊이(depth)**에 존재합니다 (디코딩 가능한 레이어 범위: 학습된 모델 1.0 vs 학습되지 않은 모델 0.0). 너비는 좁고, 깊이는 넓습니다.
개념은 가산적(additively)으로 공존합니다. 하나의 공유된 프로브(probe)가 전용 프로브만큼 각 카테고리를 잘 읽어냅니다 (보존율 1.00) — 즉, 개념들은 선형적으로 중첩(linearly superposed)되어 있으며 병렬로 읽힙니다.
방향이 곧 전체 코드입니다. 비선형 MLP 프로브는 1,200개의 자극을 사용하더라도 단일 선형 방향을 이기지 못합니다 (모든 모델에서 격차 ≤ 0). "의미 = 방향"은 근사치가 아니라, 그 자체로 코드입니다.

4. LLM이 뇌와 일치하는 부분 — 그리고 일치하지 않는 부분

특성	뇌	밀집된 LLM (Dense LLM)	판결
Small-worldness / rich-club hubs	예	예 (σ 최대 12.8)	일치
...

주목할 만한 두 가지 추가 결과:

조종 가능성(Steerability)은 인코딩 차원(encoding dimensionality)에 의해 예측됩니다 (r ≈ −0.83): 약 1개의 방향에 압축된 개념(숫자, 색상)은 깔끔하게 조종되는 반면, 고차원 개념은 저항합니다.
배선 비용 페널티(wiring-cost penalty)는 작은 트랜스포머를 더 모듈화되게 만듭니다 (4/4개 시드에서 ΔQ > 0, 비단조적 최적 지점 존재) — 이는 뇌의 모듈성이 부분적으로 트랜스포머에는 일반적으로 결여된 물리적 임베딩 제약의 결과라는 직접적인 증거입니다.

정직한 무효 결과 (Honest nulls)

이 실험 프레임워크는 적대적 검증 게이트(adversarial verification gate)를 갖추고 있으며, 몇몇 매력적인 가설들이 여기서 탈락했습니다: "추상화 속도(abstraction velocity)가 능력을 예측한다"는 깨끗한 5단계 Qwen 계층에서 기각되었습니다; 화려했던 "SAE 특징(features)에서 60배 더 국소화됨"은 골드 표준인 사전 학습된 Gemma Scope SAE 하에서 겸손한 2.4배로 줄어들었습니다; 모델 간 특징 수준의 보편성(feature-level universality)은 부분적일 뿐입니다. 이 결과들은 미화되지 않고 무효(nulls)로 보고되었습니다.

방법론: Apple Silicon (MPS)에서 스캔한 밀집 모델 (dense models), 신경과학 스타일의 분석 파이프라인 (선형 프로브 (linear probes), RSA/CKA, 기능적 커넥톰 그래프 (functional connectome graphs), 인과적 패칭 (causal patching), SAEs, 스티어링 (steering)). 모든 숫자는 데이터 파일로 추적 가능합니다. 피드백을 환영합니다.

AI 자동 생성 콘텐츠

원문 바로가기