arXiv논문2026. 05. 14. 13:28

Transformers에서의 효과적인 컨텍스트: 파편화(Fragmentation)와 토큰화(Tokenization)에 관한 분석

요약

본 논문은 Transformer 모델의 예측 성능에 영향을 미치는 표현 단위(바이트, 문자, 서브워드 등) 선택 문제를 정보 이론적 관점에서 분석합니다. 연구진은 '파편화'와 '토큰화'라는 두 가지 상호 보완적인 현상을 발견했습니다. 파편화는 더 작은 표현 단위가 유한 컨텍스트에서 성능 저하를 일으킬 수 있음을 증명하며, 토큰화는 짧은 토큰 창이 긴 소스 컨텍스트처럼 작동하게 만드는 메커니즘을 제시합니다.

핵심 포인트

파편화(Fragmentation)는 더 작은 표현 단위가 유한 컨텍스트에서 최적의 성능을 저해할 수 있음을 이론적으로 증명한다.
토큰화(Tokenization)는 소스 심볼을 그룹화하여 짧은 토큰 창이 긴 소스 이력을 신뢰성 있게 포괄하도록 돕는다.
연구 결과는 ByT5 및 CANINE과 같은 바이트/문자 수준 모델의 성능 격차에 대한 이론적 설명을 제공한다.
제시된 손실 보장은 실제 토크나이저가 고정된 컨텍스트 창 내에서 얼마나 많은 소스 이력을 포괄하는지 측정할 수 있는 진단법을 제공한다.

Transformers는 시퀀스의 표현(representation)을 바탕으로 예측을 수행합니다. 동일한 데이터라도 바이트(bytes), 문자(characters), 또는 서브워드 토큰(subword tokens)으로 작성될 수 있으며, 이러한 표현들은 무손실(lossless)일 수 있습니다. 하지만 고정된 컨텍스트 창(context window) 하에서, 이들이 모델에 동일한 정보를 노출해야 하는 것은 아닙니다. 이는 다음과 같은 근본적인 질문을 제기합니다: 표현의 선택이 유한한 컨텍스트를 가진 예측기가 달성할 수 있는 성과를 어떻게 변화시키는가? 우리는 Markov 소스(Markov sources)를 통해 이 문제를 연구하며 두 가지 상호 보완적인 현상을 발견했습니다.

첫째, 컨텍스트 창을 관련 소스 이력(source history)을 포함할 만큼 확장하더라도, 더 작은 표현 단위로 이동하는 것이 예측 성능을 해칠 수 있음을 관찰했습니다. 이를 설명하기 위해, 우리는 각 소스 심볼(source symbol)을 여러 개의 더 작은 단위로 교체하는 무손실 재부호화(lossless recoding)인 파편화(fragmentation)를 도입합니다. 우리는 파편화가 최적의 유한 컨텍스트 로그 손실(optimal finite-context log-loss)을 엄격하게 증가시킬 수 있음을 증명하며, 이 격차가 단순히 최적화나 용량(capacity)의 문제가 아니라 표현 자체에 내재될 수 있음을 보여줍니다. 이는 ByT5 및 CANINE과 같은 바이트 및 문자 수준 모델이 서브워드 토큰화(subword-tokenized) 모델에 비해 보이는 유한 컨텍스트 격차(finite-context gap)에 대한 이론적 설명을 제공합니다.

둘째, 우리는 반대 방향인 탐욕적 토큰화(greedy tokenization) — BPE, WordPiece 및 관련 방법들 — 즉, 소스 심볼을 더 큰 단위로 그룹화하는 방식을 연구합니다. 우리는 토큰화가 짧은 토큰 창을 더 긴 소스 컨텍스트 창처럼 작동하게 만들 수 있음을 보여주며, 이것이 언제 달성 가능한지를 설명하는 손실 보장(loss guarantee)을 제시합니다. 이 보장은 토크나이저(tokenizer)의 압축률(compression rate)과 더불어, 토큰 창이 필요한 소스 이력을 얼마나 신뢰성 있게 포괄하는지에 따라 달라집니다. 이는 또한 실제 토크나이저를 위한 간단한 진단법을 제공합니다: 고정된 토큰 창이 얼마나 많은 소스 컨텍스트를 신뢰성 있게 포함하는지 측정하는 것입니다.

이 두 방향을 통해, 우리는 Transformers에서의 표현 선택을 추론하기 위한 유한 컨텍스트 정보 이론적 프레임워크(finite-context information-theoretic framework)를 구축합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Transformers에서의 효과적인 컨텍스트: 파편화(Fragmentation)와 토큰화(Tokenization)에 관한 분석

요약

핵심 포인트

댓글