태스크 구조가 시퀀스 모델의 계층별 상태 인코딩을 역전시킨다

요약

시퀀스 모델의 계층별 상태 인코딩 특성이 아키텍처뿐만 아니라 수행하는 태스크의 종류에 따라 역전될 수 있음을 밝힌 연구입니다. 실험을 통해 모델의 계산 구조가 가환성보다 태스크의 계산 방식에 더 큰 영향을 받는다는 것을 증명했습니다.

핵심 포인트

태스크 유형에 따라 Transformer와 Mamba의 상태 인코딩 패턴이 역전됨
모델의 그룹화는 대수적 가환성이 아닌 계산 구조를 따름
Mamba와 Pythia 등 다양한 아키텍처에서 태스크별 병목 지점 차이 확인
기계론적 시그니처는 아키텍처와 태스크의 결합된 속성임

시퀀스 모델(sequence models)에 대한 기계론적 연구(Mechanistic studies)는 종종 계층별 상태 인코딩(layerwise state encodings)을 아키텍처적 특성으로 취급합니다. 즉, 순환 모델(recurrent models)은 읽기 가능한 상태를 집중시키고, 어텐션 기반 모델(attention-based models)은 이를 분산시킨다는 식입니다. 우리는 동일한 아키텍처라도 태스크(task)가 변하면 이러한 프로필이 역전된다는 것을 발견했습니다. Transformer, Mamba, Mamba-2, LSTM, 그리고 GRU에 걸쳐, Parity 태스크는 Mamba와 순환 베이스라인(recurrent baselines) 모델에서는 후반부에 집중되는 반면, Transformer에서는 점진적으로 구축됩니다. 하지만 유계 깊이 Dyck-k(bounded-depth Dyck-k) 태스크에서는 이 패턴이 뒤집힙니다. 이러한 역전 현상은 파인튜닝(fine-tuned)된 Mamba-130M과 Pythia-160M에서도 나타나며, Pythia의 Dyck 병목(bottleneck) 현상은 410M 규모에서도 지속됩니다. 기존 문헌에서는 두 가지 설명이 혼재되어 있습니다: 대수적 구조(algebraic structure, 가환성(commutativity)) 대 계산 구조(computational structure, 접두사 업데이트(prefix update) 대 스택(stack)). 이를 분리하기 위해 우리는 세 번째 태스크인 비가환 $S_3$ 치환 합성(non-commutative $S_3$ permutation composition)을 추가했습니다. 5개 아키텍처 모두에 대한 계층별 프로빙(layerwise probing)과 Mamba 전용 Conv1D 어트리뷰션(attribution) 결과, $S_3$ 그룹은 Dyck가 아닌 Parity와 함께 묶였으며, 이는 그룹화가 가환성이 아닌 계산 구조를 추적함을 보여줍니다. 인과적 개입(Causal interventions)을 통해 4계층 형식 모델(formal models)에서 선형적으로 읽기 가능한 방향(linearly readable directions)이 종종 기능적으로 필수적이며, Parity와 Dyck의 분포 외(out-of-distribution) 길이에서도 중요하게 유지될 수 있음을 보여줍니다. 사전 학습(pretrained) 규모에서는 양상이 갈립니다. 파인튜닝된 Pythia Dyck는 강력한 중간 계층 병목(middle-layer bottleneck)을 보입니다(160M 모델에서 L6-L7 절제(ablation) 시 정확도가 약 81% 하락하며, 410M에서는 L4-L18 범위에서 더 넓은 고원(plateau) 현상이 나타남). 반면 사전 학습된 Mamba는 상보적인 실패 모드(complementary failure mode)를 보여줍니다. Mamba의 마지막 계층은 매우 읽기 쉬우며, Parity, Dyck, 또는 $S_3$ 태스크에서 단일 프로브 방향(probe direction)이 태스크를 깨뜨리지 못하지만, 해당 위치의 중간 위치 활성화 패칭(mid-position activation patching)을 통해 깨끗한 데이터와 오염된 데이터 사이의 로짓 차이(logit gap)를 약 97-98% 회복합니다. 프로빙(Probing)은 상태가 선형적으로 사용 가능한 위치를 국지화할 뿐, 항상 계산이 병목되는 위치를 나타내는 것은 아닙니다. 기계론적 시그니처(Mechanistic signatures)는 아키텍처와 태스크가 결합된 속성입니다.

AI 자동 생성 콘텐츠

원문 바로가기

태스크 구조가 시퀀스 모델의 계층별 상태 인코딩을 역전시킨다

요약

핵심 포인트

댓글