arXiv논문2026. 05. 29. 12:55

언어 모델은 상태 변화에 따라 엔티티를 추적하는가?

요약

언어 모델(LM)이 상태 변화에 따라 엔티티를 추적하는 메커니즘을 조사한 연구입니다. 모델이 점진적으로 상태를 추적하는 대신 마지막 토큰에서 정보를 병렬적으로 집계하는 비-점진적 방식을 사용함을 발견했습니다.

핵심 포인트

LMs는 상태 변화를 점진적이 아닌 비-순차적 전략으로 해결함
엔티티 제거 시 취약한 전역 억제 태그를 사용하는 메커니즘 발견
행동적 분석과 기계론적 분석의 상호작용을 통한 실패 모드 예측
전역 제거 메커니즘의 문제를 해결하는 기계론적 솔루션 제안

엔티티 추적 (Entity tracking, ET), 즉 상태를 계속 추적하는 능력은 복잡한 추론의 기초가 되는 핵심 기술입니다. 상태 변화가 $\textit{없는}$ 상황에서 트랜스포머 언어 모델 (Language Models, LMs)이 엔티티 바인딩 (Entity binding)을 어떻게 해결하는지를 조사하는 연구가 점점 늘어나고 있습니다. 그러나 비-장난감 (Non-toy) 수준의 LMs가 자연어로 표현된 현실적인 난이도의 ET 문제를 어떻게 다루는지에 대한 이해는 제한적입니다. 이를 위해, 우리는 여러 번의 상태 변화 연산 (State-changing operations)이 포함된 더 복잡한 시나리오에서 ET의 근저에 있는 메커니즘을 조사합니다. 우리는 LMs가 토큰(Tokens)을 거치며 점진적으로 세계 상태를 추적하거나 레이어(Layers)를 거치며 쿼리 관련 상태를 추적하는 것이 아니라, 쿼리가 명확해지는 마지막 토큰에서 관련 정보를 단순히 병렬적으로 집계한다는 것을 발견했습니다. 우리는 이러한 비-점진적 (Non-incremental) ET 메커니즘을 특징짓기 위해 개별 연산 ($\texttt{PUT}$, $\texttt{REMOVE}$, $\texttt{MOVE}$)의 메커니즘을 추가로 조사합니다. 놀랍게도, LMs는 취약한 전역 억제 태그 (Global suppression tag)를 사용하여 $\texttt{REMOVE}$ 연산을 수행합니다. 이러한 전역 제거 메커니즘은 우리가 행동적으로 확인한 다양한 실패 모드 (Failure modes)를 예측합니다. 우리는 이 문제를 부분적으로 해결하기 위해 해당 태그를 무효화하는 기계론적 해결책 (Mechanistic solution)을 제공합니다. 전반적으로, 우리의 연구 결과는 LMs가 근본적으로 순차적인 작업을 비-순차적인 전략을 사용하여 해결한다는 것을 보여줍니다. 더 넓게는, 우리의 연구는 행동적 분석 (Behavioral analysis)과 기계론적 분석 (Mechanistic analysis)이 어떻게 유익하게 상호작용할 수 있는지를 보여줍니다. 행동적 결과는 기계론적 가설에 정보를 제공하며, 기계론적 분석으로부터 얻은 통찰은 기존 평가에서 누락된 실패 모드를 예측함으로써 더 강력한 행동적 평가를 구축하는 데 도움을 줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 모델은 상태 변화에 따라 엔티티를 추적하는가?

요약

핵심 포인트

댓글