본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 11. 23:21

오류 제어 역학을 통한 순환 모델의 상태 추적 재고찰

요약

본 논문은 순환 모델에서의 상태 추적 능력이 단순히 이론적인 표현 능력(expressive capacity)에 의해서만 결정되는 것이 아님을 주장한다. 대신, '오류 제어' 역학이 핵심이며, 특히 아핀 순환 네트워크와 같은 모델 클래스는 숨겨진 상태 드리프트를 효과적으로 지배하여 강력한 상태 추적을 수행하지 못하고 유한 범위의 해법에 머무르는 경향이 있다. 연구는 상태 추적이 유지되려면 클래스 내 분산이 초기 클래스 간 분리보다 작아야 하며, 이 붕괴 지점은 다운스트림 정확도가 실패하는 예측 가능한 임계값임을 보여준다.

핵심 포인트

  • 상태 추적의 핵심 요소는 표현 능력(expressive capacity)을 넘어 오류 제어(error control) 역학에 있다.
  • 아핀 순환 네트워크와 같은 모델은 상태 분리 부분 공간을 따라 오류를 수정할 수 없어 강력한 상태 추적을 수행하지 못한다.
  • 성공적인 상태 추적은 클래스 내 분산이 초기 클래스 간 분리보다 작을 때만 가능하다는 이론적 한계를 제시한다.
  • 구별 가능성 비율(distinguishability ratio)과 가독성 임계값 사이의 교차점은 모델 성능 실패 지평을 예측하는 중요한 지표가 된다.

순환 아키텍처에서의 상태 추적 이론은 주로 표현 능력(expressive capacity)에 초점을 맞춰왔습니다. 즉, 고정된 아키텍처가 특정 심볼릭 전이 규칙(symbolic transition rules) 집합을 이론적으로 실현할 수 있는지 여부입니다. 우리는 이와 동등하게 중요한 것이 오류 제어(error control), 즉 심볼릭 상태를 구별하는 방향을 따라 숨겨진 상태 드리프트(hidden-state drift)를 지배하는 역학이라고 주장합니다. 우리는 State-Space Models과 Linear Attention을 포함하는 모델 클래스인 아핀 순환 네트워크(affine recurrent networks)가 상태 표현을 유지하는 순간, 상태 분리 부분 공간(state-separating subspaces)을 따라 오류를 수정할 수 없음을 증명합니다. 결과적으로, 실제 아핀 트래커는 강력한 상태 추적을 학습하지 못하며; 대신, 누적된 상태 관련 오류에 의해 지배되는 유한 범위 해법(finite horizon solutions)을 학습합니다. 우리는 이러한 실패의 역학을 특성화하여, 추적이 읽기 가능하게 유지되는 것은 축적되는 클래스 내 분산(within-class spread)이 초기 클래스 간 분리(between-class separation)에 비해 작을 때만임을 보여줍니다. 그룹 상태 추적 작업에서 경험적으로 시연한 결과, 이러한 붕괴는 예측 가능하다는 것을 보여줍니다: 구별 가능성 비율(distinguishability ratio)이 훈련된 디코더의 가독성 임계값(readability threshold)을 넘어서면 추적이 붕괴합니다. 훈련된 모델 전반에 걸쳐, 이 교차점은 다운스트림 정확도가 실패하는 지평(horizon)을 예측합니다. 이러한 결과는 강력한 상태 추적이 아키텍처의 이론적 표현 능력뿐만 아니라 결정적으로 오류 제어에 의해 결정됨을 확립합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0