arXiv논문2026. 04. 27. 20:51

괄호 순서 변환기에서 해석 가능성과 인과적 사용을 분리하기

요약

본 논문은 트랜스포머 모델에서 학습된 계층 구조가 단순히 '해석 가능한(decodable)' 것인지, 아니면 실제로 '인과적으로 사용되는(causally used)' 것인지를 조사합니다. 연구진은 명시적인 Dyck 언어(균형 잡힌 괄호 순서)로 학습된 트랜스포머를 사용하여 잔류 스트림과 주의 패턴을 탐지하고 개입하는 실험을 수행했습니다. 그 결과, 깊이와 거리 같은 계층적 정보는 모두 해석 가능하지만, 인과적인 역할은 분리되어 있음을 발견했으며, 특히 스택 상단 위치의 주의를 가리는 것이 장거리 정확도에 큰 영향을 미치는 반면, 저차원 잔류 스트림을 제거하는 것은 상대적으로 적은 영향을 미친다는 것을 보여주었습니다.

핵심 포인트

트랜스포머 모델에서 계층적 구조는 잔류 스트림과 주의 패턴 모두에서 표현되지만, 이 둘의 인과적 사용 여부는 다릅니다.
계층적 정보(깊이, 거리 등)가 해석 가능하더라도 그것이 반드시 모델의 성능에 필수적인 '인과적' 역할을 의미하지는 않습니다.
실험 결과, 스택 상단 위치로의 주의를 가리는 것이 장거리 의존성 정확도를 급격히 떨어뜨려 계층적 정보의 인과적 중요성을 입증했습니다.
이러한 발견은 템플릿화된 자연어 설정에서도 적용 가능하며, 해석 가능성과 인과적 사용 사이에는 명확한 구분이 필요함을 시사합니다.

계층 구조를 이해해야 하는 작업으로 학습된 변환기 (transformers) 에서는 이 계층 구조가 잔류 스트림 (residual stream) 의 기하학적 구조와 후입선출 (last-in, first-out) 순서를 유지하는 스택 유사한 주의 패턴 (stack-like attention patterns) 에서 구별되어 표현됨을 발견해 왔다. 그러나 이러한 표현들이 실제로 인과적으로 사용되거나 단순히 해석 가능 (decodable) 한지에 대해서는 여전히 불분명하다. 우리는 계층적 진실 (hierarchical ground truth) 이 명시적인 Dyck 언어 (균형 잡힌 괄호 순서를 나타내는 형식 언어) 로 학습된 변환기에서 이 격차를 조사한다. 잔류 스트림과 주의 패턴에 대한 탐지 (probing) 와 개입 (intervening) 을 통해 우리는 깊이, 거리, 스택 상단 신호가 모두 해석 가능하지만 그 인과적 역할은 분화됨을 발견한다. 구체적으로, 참된 스택 상단 위치로의 주의를 가리면 장거리 정확도가 급격히 떨어지는 반면, 저차원 잔류 스트림 부분공간을 제거 (ablate) 하는 것은 상대적으로 적은 영향을 미친다. 이러한 결과는 템플릿화된 자연어 설정으로도 확장되며, 관련 계층적 변수가 알려진 통제된 환경에서도 해석 가능성 만이 인과적 사용을 의미하지는 않음을 시사한다.

AI 자동 생성 콘텐츠

원문 바로가기

괄호 순서 변환기에서 해석 가능성과 인과적 사용을 분리하기

요약

핵심 포인트

댓글