arXiv논문2026. 05. 08. 16:53

TIDE: Every Layer Knows the Token Beneath the Context

요약

본 논문은 현대 LLM의 설계 선택 중 하나인 '토큰 인덱스 폐기' 문제에 주목하며, 이것이 희귀 토큰 과소 학습과 컨텍스트 붕괴라는 두 가지 구조적 실패를 초래한다고 지적합니다. 이를 해결하기 위해 TIDE(Token Identity Embedding)라는 새로운 아키텍처를 제안합니다. TIDE는 표준 트랜스포머에 '임베딩 메모리'를 추가하여, 토큰 인덱스를 컨텍스트와 독립적인 의미 벡터로 변환하고 이 정보를 모든 레이어에 주입함으로써 모델의 표현력을 강화합니다.

핵심 포인트

기존 LLM은 입력 임베딩 레이어에서 토큰 인덱스를 한 번만 사용한 후 폐기하는 경향이 있어 구조적 문제를 야기한다.
주요 문제점으로는 희귀 토큰의 과소 학습(Rare Token Problem)과 컨텍스트 붕괴(Context Collapse)가 있다.
TIDE는 표준 트랜스포머를 '임베딩 메모리'로 보강하는 방식을 제안한다.
이 임베딩 메모리는 K개의 독립적인 MemoryBlocks 앙상블을 사용하여 토큰 인덱스를 컨텍스트 비의존적 의미 벡터로 변환하고 모든 레이어에 주입된다.

모든 현대적인 LLM 에서 널리 받아들여졌으나 충분히 검토되지 않은 설계 선택을 재고합니다: 토큰 인덱스는 입력 임베딩 레이어에서 한 번 조회된 후 영구적으로 폐기됩니다. 이 단일 주입 가설은 두 가지 구조적 실패를 유발합니다: (i) 희귀 토큰 문제, 즉 Zipf-type 분포의 어휘가 흔하지 않은 토큰 임베딩이 누적 그래디언트 신호의 일부만 받기 때문에 만성적으로 과소 학습되는 문제; 및 (ii) 컨텍스트 붕괴 문제, 즉 제한된 파라미터 모델이 분포적으로 유사한 토큰을 구별할 수 없는 히든 상태로 매핑하는 문제. 이를 해결하기 위해 우리는 TIDE 를 제안합니다: 표준 트랜스포머를 임베딩 메모리 (EmbeddingMemory) 로 보강합니다. 이는 K 개의 독립적인 MemoryBlocks 의 앙상블로, 토큰 인덱스를 컨텍스트 없는 의미 벡터로 매핑하며, 한 번 계산된 후 깊이 조건부 softmax 라우터와 학습 가능한 null bank 를 통해 모든 레이어에 주입됩니다. 우리는 TIDE 가 단일 토큰 정체성 주입과 관련된 문제를 해결하는 데 있어 이점을 이론적으로 및 경험적으로 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TIDE: Every Layer Knows the Token Beneath the Context

요약

핵심 포인트

댓글