LLM에 fMRI를 실행해 보았습니다: 개념은 영역이 아니라 방향입니다
요약
LLM의 내부 활성화 데이터를 분석하여 개념이 특정 뉴런 영역이 아닌 벡터 공간 내의 특정 방향(direction)으로 저장됨을 증명했습니다. Qwen2.5, Gemma-2, Gemma-4 모델을 통해 개념이 분산된 형태로 존재하며, 잔차 스트림을 통해 가산적으로 공존한다는 메커니즘을 밝혀냈습니다.
핵심 포인트
- 개념은 특정 뉴런이 아닌 활성화 공간 내의 단일 방향으로 존재함
- 특정 유닛 제거보다 분산된 방향 제거 시 모델 성능에 더 큰 영향을 미침
- 잔차 스트림은 레이어 전반에 걸쳐 기여도가 합산되는 공유 버스 역할을 함
- 개념은 본질적으로 랭크-1(rank-1)이며 모든 레이어 깊이에 존재함
요약 (TL;DR)
저는 "LLM을 위한 fMRI"를 실행해 왔습니다. 즉, 밀집형 오픈 모델(Qwen2.5-7B, Gemma-2-9B, Gemma-4-12B)의 전체 내부 활성화(internal activations)를 캡처하고, 의미가 어떻게 조직되는지 매핑하기 위해 신경과학적 방법론을 적용했습니다. 인과적으로 확인되었으며 세 모델 모두에서 나타난 핵심 결과는 다음과 같습니다: 개념은 뉴런의 특정 영역에 저장되는 것이 아니라, 활성화 공간(activation space) 내의 단일 방향(direction)입니다.
1. 의미는 영역(region)이 아니라 방향(direction)에 존재한다
뇌에서는 범주(categories)가 국소적인 영역에 존재합니다 (예: 얼굴 → 방추상 안면 영역(fusiform face area)). 하지만 LLM은 그 반대입니다.
- 분산되고 중첩된 코드 (Distributed, superposed code). 10개 범주에 대한 선형 프로브(linear probe)는 우연을 훨씬 상회하는 디코딩 성능을 보였으나 (Gemma-2 0.97, Qwen 0.80), "가장 선택적인(most selective)" 유닛들은 자극의 두 무작위 절반 사이에서 재현되지 않았습니다 (중첩 ≈ 0.00–0.05). 찾아낼 수 있는 "동물 뉴런" 같은 것은 없습니다.
- 인과적 증명 (Causal proof). 가장 선택적인 20개 유닛을 제거(ablating)했을 때 하위 범주 정확도의 변화는 ~0이었습니다 (20개의 무작위 유닛을 제거했을 때와 동일). 하지만 **하나의 분산된 방향(distributed direction)**을 제거했을 때는 성능이 붕괴되었습니다 — 평균 ΔAUC가 최대 +0.52까지 변화했습니다 (Qwen). 이는 세 모델 모두에서 사실로 확인되었습니다.
따라서 범주는 **하나의 방향에 국소화(localized)**되어 있지만, 그 방향은 3584개의 뉴런 중 약 2000개에 걸쳐 퍼져 있으며, 어떤 뉴런인지는 재현 불가능합니다. 국소화는 해부학적 구조가 아니라 벡터 공간(vector space) 내에서 일어납니다.
2. 개입(intervention)을 통해 밝혀낸 메커니즘
- 잔차 스트림(residual stream)은 공유된 가산 버스(shared additive bus)입니다. N개의 연속된 레이어에서 개념 방향을 주입하는 것은 한 레이어에서 N배의 크기를 주입하는 것과 같습니다 — 비율 = 모든 N에 대해 1.00. 스트림은 말 그대로 레이어 전반에 걸쳐 기여도를 합산합니다.
- 오직 상대적 크기만이 코딩됩니다. 잔차 스트림 전체를 0.25×~4×로 스케일링해도 출력 변화는 0입니다 (RMSNorm이 이를 나누어 제거함). 오직 개념 방향을 따른 성분만을 스케일링하면 → 깔끔하고 단조로운(monotonic) 개념 변화가 나타납니다. 즉, 의미 = 벡터의 길이가 아니라 방향을 따른 투영(projection)입니다.
3. 네트워크의 어느 정도가 하나의 개념인가? (깊이 연구)
엄격한 통제 조건(카테고리당 120개의 자극, 아키텍처가 일치하는 학습되지 않은 쌍둥이(untrained twin), 훈련/테스트 간 프레임 누출이 없도록 단어 그룹별 분할) 하에서:
- 개념은 본질적으로 랭크-1(rank-1)입니다 — 하나의 방향이며, **모든 깊이(depth)**에 존재합니다 (디코딩 가능한 레이어 범위: 학습된 모델 1.0 vs 학습되지 않은 모델 0.0). 너비는 좁고, 깊이는 넓습니다.
- 개념은 가산적(additively)으로 공존합니다. 하나의 공유된 프로브(probe)가 전용 프로브만큼 각 카테고리를 잘 읽어냅니다 (보존율 1.00) — 즉, 개념들은 선형적으로 중첩(linearly superposed)되어 있으며 병렬로 읽힙니다.
- 방향이 곧 전체 코드입니다. 비선형 MLP 프로브는 1,200개의 자극을 사용하더라도 단일 선형 방향을 이기지 못합니다 (모든 모델에서 격차 ≤ 0). "의미 = 방향"은 근사치가 아니라, 그 자체로 코드입니다.
4. LLM이 뇌와 일치하는 부분 — 그리고 일치하지 않는 부분
| 특성 | 뇌 | 밀집된 LLM (Dense LLM) | 판결 |
|---|---|---|---|
| Small-worldness / rich-club hubs | 예 | 예 (σ 최대 12.8) | 일치 |
| ... |
주목할 만한 두 가지 추가 결과:
- 조종 가능성(Steerability)은 인코딩 차원(encoding dimensionality)에 의해 예측됩니다 (r ≈ −0.83): 약 1개의 방향에 압축된 개념(숫자, 색상)은 깔끔하게 조종되는 반면, 고차원 개념은 저항합니다.
- 배선 비용 페널티(wiring-cost penalty)는 작은 트랜스포머를 더 모듈화되게 만듭니다 (4/4개 시드에서 ΔQ > 0, 비단조적 최적 지점 존재) — 이는 뇌의 모듈성이 부분적으로 트랜스포머에는 일반적으로 결여된 물리적 임베딩 제약의 결과라는 직접적인 증거입니다.
정직한 무효 결과 (Honest nulls)
이 실험 프레임워크는 적대적 검증 게이트(adversarial verification gate)를 갖추고 있으며, 몇몇 매력적인 가설들이 여기서 탈락했습니다: "추상화 속도(abstraction velocity)가 능력을 예측한다"는 깨끗한 5단계 Qwen 계층에서 기각되었습니다; 화려했던 "SAE 특징(features)에서 60배 더 국소화됨"은 골드 표준인 사전 학습된 Gemma Scope SAE 하에서 겸손한 2.4배로 줄어들었습니다; 모델 간 특징 수준의 보편성(feature-level universality)은 부분적일 뿐입니다. 이 결과들은 미화되지 않고 무효(nulls)로 보고되었습니다.
방법론: Apple Silicon (MPS)에서 스캔한 밀집 모델 (dense models), 신경과학 스타일의 분석 파이프라인 (선형 프로브 (linear probes), RSA/CKA, 기능적 커넥톰 그래프 (functional connectome graphs), 인과적 패칭 (causal patching), SAEs, 스티어링 (steering)). 모든 숫자는 데이터 파일로 추적 가능합니다. 피드백을 환영합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기