본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 03. 11:04

Transformer를 이용한 Counter Language 모델링에서 스택 표현(Stack Representations)의 인과적 증거

요약

Transformer 모델이 Counter Language를 처리할 때 학습하는 스택 표현의 인과적 역할을 분석한 연구입니다. 선형 프로브를 통해 추출한 스택 깊이 방향을 제거했을 때 모델의 성능이 완전히 붕괴됨을 입증했습니다.

핵심 포인트

  • Transformer 내부의 스택 구조 표현 확인
  • 선형 프로브를 통한 스택 깊이 예측 및 방향 추출
  • 스택 표현 제거 시 순차적 정확도 0%로 급락
  • 스택 표현이 모델 성능에 필수적인 인과적 요소임을 증명

형식 언어(Formal languages)는 Transformer의 내부 메커니즘을 이해하는 데 효과적인 통로임이 입증되었습니다. 기존 연구들은 Counter language에 대해 다음 토큰 예측(next token prediction)으로 학습된 Transformer가 기저의 스택 구조(stack structure)와 일치하는 표현(representations)을 학습한다는 것을 보여주었습니다. 본 논문은 이러한 표현의 분석을 넘어, 이 표현들이 갖는 인과적 역할(causal role)을 조사합니다. 모델의 은닉 상태(hidden states)로부터 각 토큰에서의 스택 깊이(stack depth)를 예측하도록 선형 프로브(Linear probes)를 학습시키고, 해당 프로브로부터 주요 표현 방향(principal representation direction)을 추출합니다. 모델에서 이 방향을 제거(Ablation)했을 때 순차적 정확도(sequential accuracy)가 0%에 가깝게 붕괴되었으며, 이는 스택 표현이 단순히 학습된 것이 아니라 모델의 성능을 위해 인과적으로 필수적이라는 강력한 실증적 증거를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0