arXiv논문2026. 06. 03. 11:04

Transformer를 이용한 Counter Language 모델링에서 스택 표현(Stack Representations)의 인과적 증거

요약

Transformer 모델이 Counter Language를 처리할 때 학습하는 스택 표현의 인과적 역할을 분석한 연구입니다. 선형 프로브를 통해 추출한 스택 깊이 방향을 제거했을 때 모델의 성능이 완전히 붕괴됨을 입증했습니다.

핵심 포인트

Transformer 내부의 스택 구조 표현 확인
선형 프로브를 통한 스택 깊이 예측 및 방향 추출
스택 표현 제거 시 순차적 정확도 0%로 급락
스택 표현이 모델 성능에 필수적인 인과적 요소임을 증명

형식 언어(Formal languages)는 Transformer의 내부 메커니즘을 이해하는 데 효과적인 통로임이 입증되었습니다. 기존 연구들은 Counter language에 대해 다음 토큰 예측(next token prediction)으로 학습된 Transformer가 기저의 스택 구조(stack structure)와 일치하는 표현(representations)을 학습한다는 것을 보여주었습니다. 본 논문은 이러한 표현의 분석을 넘어, 이 표현들이 갖는 인과적 역할(causal role)을 조사합니다. 모델의 은닉 상태(hidden states)로부터 각 토큰에서의 스택 깊이(stack depth)를 예측하도록 선형 프로브(Linear probes)를 학습시키고, 해당 프로브로부터 주요 표현 방향(principal representation direction)을 추출합니다. 모델에서 이 방향을 제거(Ablation)했을 때 순차적 정확도(sequential accuracy)가 0%에 가깝게 붕괴되었으며, 이는 스택 표현이 단순히 학습된 것이 아니라 모델의 성능을 위해 인과적으로 필수적이라는 강력한 실증적 증거를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Transformer를 이용한 Counter Language 모델링에서 스택 표현(Stack Representations)의 인과적 증거

요약

핵심 포인트

댓글