arXiv논문2026. 06. 15. 12:25

압축된 연산 (Compressed Computation)은 (아마도) 중첩된 연산 (Computation in Superposition)이

요약

압축된 연산(CC) 토이 모델이 중첩된 연산(computation in superposition)의 사례인지 분석한 연구입니다. 연구 결과, CC 모델의 성능 향상은 혼합 행렬의 영향이며, 이는 CC가 중첩된 연산을 설명하기에 적절한 모델이 아님을 시사합니다.

핵심 포인트

CC 모델은 50개 뉴런으로 100개의 ReLU 함수를 계산하는 듯한 특성을 보임
성능 향상은 노이즈가 있는 잔차 스트림을 통한 입력 혼합에 기인함
학습된 뉴런 방향은 혼합 행렬의 상위 고유값 관련 부분 공간에 집중됨
CC는 중첩된 연산을 설명하기 위한 적절한 토이 모델이 아닐 가능성이 높음

우리는 압축된 연산 (Compressed Computation, CC) 토이 모델 (Braun et al., 2025)이 중첩된 연산 (computation in superposition)의 사례인지 연구합니다. CC 모델은 단 50개의 뉴런만으로 100개의 ReLU 함수를 계산하는 것처럼 보이며, 단지 50개의 ReLU 함수만을 표현할 때 예상되는 것보다 더 나은 손실 (loss) 값을 달성합니다. 우리는 이 모델이 노이즈가 있는 잔차 스트림 (residual stream)을 통해 입력을 혼합하며, 이것이 레이블 (labels)에서의 의도하지 않은 혼합 행렬 (mixing matrix)에 대응한다는 것을 보여줍니다. 학습 목표를 ReLU 항과 혼합 항으로 분리했을 때, 성능 향상은 혼합 행렬의 크기에 따라 비례하며 행렬이 제거되면 사라진다는 것을 발견했습니다. 학습된 뉴런 방향은 혼합 행렬의 상위 50개 고유값 (eigenvalues)과 관련된 부분 공간 (subspace)에 집중되며, 이는 혼합 항이 솔루션을 지배한다는 것을 시사합니다. 마지막으로, 오직 혼합 행렬로부터 유도된 준-비음수 행렬 분해 (semi-non-negative matrix factorization, SNMF) 베이스라인은 정성적인 손실 프로파일 (loss profile)을 재현하고 이전의 베이스라인들을 능가하지만, 학습된 모델과 일치하지는 않습니다. 이러한 결과는 CC가 중첩된 연산 (computation in superposition)을 설명하기 위한 적절한 토이 모델이 아님을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

압축된 연산 (Compressed Computation)은 (아마도) 중첩된 연산 (Computation in Superposition)이

요약

핵심 포인트

댓글