TIDE: Every Layer Knows the Token Beneath the Context
요약
본 논문은 현대 LLM의 설계 선택 중 하나인 '토큰 인덱스 폐기' 문제에 주목하며, 이것이 희귀 토큰 과소 학습과 컨텍스트 붕괴라는 두 가지 구조적 실패를 초래한다고 지적합니다. 이를 해결하기 위해 TIDE(Token Identity Embedding)라는 새로운 아키텍처를 제안합니다. TIDE는 표준 트랜스포머에 '임베딩 메모리'를 추가하여, 토큰 인덱스를 컨텍스트와 독립적인 의미 벡터로 변환하고 이 정보를 모든 레이어에 주입함으로써 모델의 표현력을 강화합니다.
핵심 포인트
- 기존 LLM은 입력 임베딩 레이어에서 토큰 인덱스를 한 번만 사용한 후 폐기하는 경향이 있어 구조적 문제를 야기한다.
- 주요 문제점으로는 희귀 토큰의 과소 학습(Rare Token Problem)과 컨텍스트 붕괴(Context Collapse)가 있다.
- TIDE는 표준 트랜스포머를 '임베딩 메모리'로 보강하는 방식을 제안한다.
- 이 임베딩 메모리는 K개의 독립적인 MemoryBlocks 앙상블을 사용하여 토큰 인덱스를 컨텍스트 비의존적 의미 벡터로 변환하고 모든 레이어에 주입된다.
모든 현대적인 LLM 에서 널리 받아들여졌으나 충분히 검토되지 않은 설계 선택을 재고합니다: 토큰 인덱스는 입력 임베딩 레이어에서 한 번 조회된 후 영구적으로 폐기됩니다. 이 단일 주입 가설은 두 가지 구조적 실패를 유발합니다: (i) 희귀 토큰 문제, 즉 Zipf-type 분포의 어휘가 흔하지 않은 토큰 임베딩이 누적 그래디언트 신호의 일부만 받기 때문에 만성적으로 과소 학습되는 문제; 및 (ii) 컨텍스트 붕괴 문제, 즉 제한된 파라미터 모델이 분포적으로 유사한 토큰을 구별할 수 없는 히든 상태로 매핑하는 문제. 이를 해결하기 위해 우리는 TIDE 를 제안합니다: 표준 트랜스포머를 임베딩 메모리 (EmbeddingMemory) 로 보강합니다. 이는 K 개의 독립적인 MemoryBlocks 의 앙상블로, 토큰 인덱스를 컨텍스트 없는 의미 벡터로 매핑하며, 한 번 계산된 후 깊이 조건부 softmax 라우터와 학습 가능한 null bank 를 통해 모든 레이어에 주입됩니다. 우리는 TIDE 가 단일 토큰 정체성 주입과 관련된 문제를 해결하는 데 있어 이점을 이론적으로 및 경험적으로 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기