기계론적 해석 가능성 (Mechanistic Interpretability): Transformer 내부에서 실제로 무엇을 발견하고 있는가

딥러닝 역사의 대부분 동안 지배적인 입장은 다음과 같았습니다: 우리는 내부에서 실제로 어떤 일이 일어나고 있는지 정말로 알 수 없다. 네트워크는 블랙박스 (Black box)이다. 우리는 입력과 출력을 측정할 수 있고, 중간 활성화 값 (Intermediate activations)을 추출하기 위해 세심하게 계측할 수는 있지만, 네트워크가 무엇을 계산하고 있는지 이해할 수 있는 실질적이고 체계적인 방법은 없다.

이러한 입장은 오랫동안 지배적이었습니다. 하지만 지난 몇 년 동안, 이 가설에 도전하는 연구 분야가 등장했습니다: 바로 기계론적 해석 가능성 (Mechanistic interpretability)입니다. 이 분야는 빠르게 성장하고 있으며, 우리가 신경망 (Neural networks) 내부에서 실제로 상당하고 해석 가능한 구조를 발견하고 있다는 분명한 느낌이 들고 있습니다.

저는 이 분야가 실제로 무엇을 하고 있는지, 무엇이 발견되었는지, 그리고 이것이 왜 중요한지에 대해 살펴보고자 합니다.

이 분야가 실제로 하려는 것

기계론적 해석 가능성 (Mechanistic interpretability)을 생각하는 가장 간단한 방법은 다음과 같습니다: 우리는 알고리즘을 역공학 (Reverse-engineer)하려고 노력하고 있습니다.

신경망 (Neural network)은 어떤 함수를 계산합니다. 어떤 의미에서 우리는 이 함수를 이해하고 있습니다: 우리는 이를 경험적으로 측정할 수 있습니다. 입력을 넣고 출력을 측정하면, 우리는 입출력 관계를 알 수 있습니다. 하지만 우리는 그 이상의 것을 원합니다. 우리는 네트워크가 그러한 출력을 생성하기 위해 사용하는 알고리즘, 즉 구체적인 계산 단계 (Computational steps)를 이해하고 싶습니다. 우리는 의미 있는 중간 양 (Intermediate quantities)을 계산하는 특정 서킷 (Sub-circuits)을 찾아내고 싶습니다. 우리는 네트워크의 동작을 인간이 해석 가능한 조각들로 분해하고 싶습니다.

이것은 다른 해석 가능성 (Interpretability) 연구와 근본적으로 다릅니다. 만약 나에게 결정 트리 (Decision tree)가 있다면, 나는 그것을 출력하여 읽을 수 있습니다. 만약 나에게 선형 모델 (Linear model)이 있다면, 나는 가중치 (Weights)를 볼 수 있습니다. 이러한 접근 방식은 의사 결정 과정에 대한 완전한 투명성을 제공합니다. 기계론적 해석 가능성 (Mechanistic interpretability)이 하려는 것은 기저 구조가 훨씬 더 복잡한 신경망 (Neural networks)으로부터 이와 유사한 종류의 투명성을 추출하는 것입니다.

발견된 것들

지난 몇 년 동안 몇 가지 구체적인 것들이 발견되었습니다:

Induction heads (유도 헤드). Transformer에는 induction heads라고 불리는 비교적 단순하지만 특정한 서브 회로(sub-circuit)가 있습니다. 이들은 상당히 구체적인 알고리즘, 즉 "현재 패턴의 이전 발생 사례를 찾아 그 뒤에 왔던 것을 복사하라"를 구현하는 어텐션 헤드(attention heads)입니다. 이는 "Attention is not not Turing-Complete" 논문에서 발견되었습니다. 연구자들은 이러한 헤드들을 찾아내고, 그 동작을 측정하며, 실제로 이 알고리즘을 구현하고 있음을 검증할 수 있었습니다.

시각 모델에서의 곡선 검출기 (Curve detectors). Vision Transformer(ViT) 및 합성곱 신경망(CNN)에서 연구자들은 개별 뉴런과 작은 뉴런 그룹이 특정 시각적 특징에 대해 신뢰할 수 있게 활성화된다는 것을 발견했습니다. 어떤 뉴런은 특정 각도의 곡선에 반응하고, 다른 뉴런은 질감(textures)에, 또 다른 뉴런은 사물의 부분(object parts)에 반응합니다. 이는 오래전부터 알려진 사실이었으나, 최근의 연구들은 이러한 특징들을 찾아내고 특성화하는 데 있어 더욱 체계적으로 접근하고 있습니다.

중첩 (Superposition). 최근 가장 흥미로운 발견 중 하나는 신경망이 superposition이라고 불리는 현상을 통해 자신이 가진 뉴런 수보다 훨씬 더 많은 특징(features)을 표현할 수 있다는 것입니다. 특징들이 희소할 때(sparse, 즉 모든 특징이 동시에 활성화되는 경우가 드물 때), 네트워크는 이를 저차원 공간에서 중첩된 방식으로 표현할 수 있습니다. 이는 네트워크가 학습하는 데이터 압축의 한 형태입니다. 문제는 이로 인해 많은 개별 뉴런이 깔끔하고 해석 가능한 특징에 대응되지 않는다는 점입니다. 대신, 각 뉴런은 여러 특징의 혼합물입니다. 하지만 구조는 여전히 존재하며, 단지 더 복잡한 형태로 나타날 뿐입니다.

superposition이 중요한 이유

Superposition이 중요한 이유는 기계론적 해석 가능성(mechanistic interpretability)의 일반적인 가정, 즉 뉴런 수준에서 해석 가능한 특징을 찾아냄으로써 네트워크를 이해할 수 있다는 가정에 도전하기 때문입니다. 만약 superposition이 어디에나 존재한다면(ubiquitous), 뉴런 그 자체는 적절한 추상화 수준(level of abstraction)이 아닐 수도 있습니다.

다른 추상화 수준(level of abstraction)에서 구조를 찾는 연구도 늘어나고 있습니다. 일부 연구자들은 저차원 부분 공간(lower-dimensional subspaces)에서 특징(features)을 찾는 작업을 수행하고 있습니다. 다른 이들은 특징들이 상호작용하는 방식의 구조를 살펴보고 있습니다. 그리고 또 다른 이들은 이러한 압축된 표현(compressed representations)을 고찰하기 위한 새로운 수학적 프레임워크를 개발하고 있습니다.

회로 가설 (The circuit hypothesis)

이 분야의 핵심적인 조직화 아이디어 중 하나는 "회로 가설 (circuit hypothesis)"입니다. 기본 주장은 다음과 같습니다: 신경망은 특정 계산을 수행하는 구체적인 하위 구조인 회로(circuits)로 구성되어 있다는 것입니다. 이러한 회로는 작을 수도 있고(Transformer의 헤드 몇 개 정도), 더 클 수도 있습니다. 이 가설은 만약 우리가 이러한 회로들을 지도화(map out)할 수 있다면, 네트워크의 동작을 설명할 수 있다는 것입니다.

이는 하나의 로드맵을 제시한다는 점에서 매력적입니다. 즉, 작은 회로를 찾아 그 동작을 규명한 다음, 이를 조합하여 더 큰 동작을 이해하는 상향식(bottom-up) 접근이 가능하다는 것입니다. 또한 하나의 방법론을 제시합니다: 만약 우리가 회로를 찾아내고 이를 절제(ablate, 제거하거나 비활성화)할 수 있다면, 우리의 이해가 올바른지 검증할 수 있습니다. 특정 회로를 제거했을 때 네트워크가 특정 동작을 수행하지 못하게 된다면, 그것은 해당 회로가 실제로 그 동작을 담당했다는 증거가 됩니다.

표본 관점 (The specimen angle)

기계론적 해석 가능성(mechanistic interpretability) 분야에서 흥미로운 방법론적 관점이 등장하고 있는데, 바로 "표본 접근법 (specimen approach)"입니다. 모든 네트워크에 적용되는 일반적인 이론을 구축하려 하기보다, 일부 연구자들은 특정 네트워크를 상세히 연구해야 할 표본(specimens)으로 취급하는 접근 방식을 취하고 있습니다. 특정 네트워크를 선택합니다. 특정 동작을 선택합니다. 그리고 이 단 하나의 사례를 완전히 이해하기 위해 상당한 노력을 기울입니다. 발견한 모든 것을 기록합니다. 관련된 회로들의 상세한 지도를 구축합니다.

단 한두 개의 표본이라도 깊이 있게 이해함으로써, 다른 환경에도 적용할 수 있는 직관을 쌓을 수 있기를 기대합니다. 이는 신경과학 (neuroscience)이 발전해 온 방식과 유사합니다. 예쁜꼬마선충 (C. elegans)이나 초파리 (fruit flies)와 같은 단순한 유기체에 대한 상세한 연구를 통해, 우리는 더 광범위하게 적용되는 것처럼 보이는 원리들을 학습해 왔습니다.

이러한 작업은 https://overfits.ai에 수집 및 보관되고 있으며, 이곳에는 상세한 회로도 (circuit diagrams)와 기계론적 분석 (mechanistic analyses)을 담은 라이브러리가 계속해서 늘어나고 있습니다.