arXiv논문2026. 06. 08. 10:56

장기 지평 비가환 상태 추적을 위한 홀드아웃 전이 쌍 반증기 (Held-Out Transition-Pair Falsifier)

요약

시퀀스 모델의 잠재 상태 추적 능력을 검증하기 위해 비가환 군(non-Abelian group)을 활용한 새로운 벤치마크 프로토콜을 제안합니다. 실험 결과, 투영된 순환 상태 모델이 기존 모델들과 달리 장기 지평에서도 오류 없는 상태 예측 성능을 보임을 입증했습니다.

핵심 포인트

비가환 변환을 통한 잠재 상태 추적의 중요성 강조
홀드아웃 전이 쌍 반증기 프로토콜을 통한 암기 경로 차단
투영된 순환 상태 모델의 장기 지평 예측 성능 입증
강력한 투영(hard projection)이 상태 일관성 유지에 핵심적 역할

상태 추적 (State tracking)은 시퀀스 모델 (sequence models)의 날카로운 한계를 드러냅니다. 즉, 관련 신호는 종종 관찰된 토큰의 요약이 아니라, 비가환 변환 (non-commutative transformations)을 통해 진화하는 순서가 있는 잠재 상태 (latent state)입니다. 우리는 유한 비가환 군 (finite non-Abelian group) 추적을 위한 홀드아웃 전이 쌍 반증기 (held-out transition-pair falsifier)를 소개합니다. 이 프로토콜은 훈련 중에 선택된 순서가 있는 생성자 쌍 (ordered generator pairs)을 금지하며, 평가 중에는 동일한 로컬 패턴을 요구함으로써 직접적인 로컬 전이 암기 경로를 차단합니다. 통제된 $S_3 \times S_3$ 벤치마크에서, 길이 8 시퀀스로만 훈련된 투영된 순환 상태 모델 (projected recurrent state model)은 5개의 시드(seed)에 걸쳐 최대 1,048,576 토큰의 평가 지평까지 오류 없는 최종 상태 예측(지평당 완벽한 250/250)을 생성합니다. bag, GRU, 그리고 단일 구성 구조적 상태 공간 모델 (structured state-space model)을 포함한 매칭된 네이티브 판독 (native-readout) 베이스라인들은 동일한 프로토콜 하에서 바닥 수준(floor)에 머물러 있습니다. 유사한 유한 군 프로토타입 판독기를 갖춘 투영 매칭 GRU, 구조적 SSM, 그리고 bag 베이스라인들 또한 동일한 분할 하에서 무작위 확률(chance) 근처에 머뭅니다. 메커니즘 진단 결과, 강력한 투영 (hard projection)은 낮은 준동형 오차 (homomorphism error), 낮은 상태 일관성 드리프트 (state-consistency drift), 그리고 유의미한 교환자 분리 (commutator separation)와 일치하는 반면, 완화된 투영 (softened projection)은 최종 상태 정확도를 붕괴시킵니다. 클린 스플릿 감사 (Clean-split audits)를 통해 훈련 및 평가 파티션 간의 축약 단어 (reduced-word) 중복이 전혀 없으며, 구조적 템플릿 (structural-template) 중복도 없음을 확인했습니다. 이 증거는 일반적인 아키텍처 순위가 아닌, 이 통제된 유한 군 반증기에 국한됩니다. 해당 영역 내에서, 명시적인 투영된 비가환 상태 합성 (projected non-commutative state composition)은 장기 지평 은닉 상태 추적 (long-horizon hidden-state tracking)을 위한 유용한 귀납적 편향 (inductive bias)으로 작용합니다.

AI 자동 생성 콘텐츠

원문 바로가기

장기 지평 비가환 상태 추적을 위한 홀드아웃 전이 쌍 반증기 (Held-Out Transition-Pair Falsifier)

요약

핵심 포인트

댓글