arXiv논문2026. 05. 22. 11:28

볼록 완화 (Convex Relaxations)를 통한 토큰화 (Tokenisation)

요약

기존의 탐욕적 알고리즘 대신 선형 계획법과 볼록 최적화를 활용한 새로운 토큰화 알고리즘 ConvexTok을 제안합니다. ConvexTok은 BpB 지표를 개선하며, 토크나이저가 최적값에 얼마나 근접했는지 수학적으로 인증할 수 있는 기능을 제공합니다.

핵심 포인트

탐욕적 알고리즘의 한계를 극복하기 위해 볼록 최적화 도입
언어 모델의 바이트당 비트(BpB) 지표 개선 확인
토크나이저의 최적값 근접도를 수학적 하한선으로 인증 가능
일반적인 어휘 집합 크기에서 최적값의 1% 이내 성능 달성

토큰화 (Tokenisation)는 현재 NLP (자연어 처리) 파이프라인의 필수적인 부분입니다. BPE 및 Unigram과 같은 현재의 토큰화 알고리즘은 탐욕 알고리즘 (greedy algorithms)입니다. 즉, 결과적인 어휘 집합 (vocabulary) 전체를 고려하지 않고 국소적으로 최적의 결정을 내립니다. 우리는 대신 토크나이저 구축을 선형 계획법 (linear program)으로 공식화하고 볼록 최적화 (convex optimisation) 도구를 사용하여 이를 해결하며, 이를 통해 ConvexTok이라 부르는 새로운 알고리즘을 도출했습니다. 우리는 ConvexTok이 내재적 토큰화 지표와 언어 모델 (language models)이 달성하는 바이트당 비트 (bits-per-byte, BpB)를 일관되게 개선한다는 것을 발견했습니다. 또한 이는 다운스트림 태스크 (downstream task) 성능을 개선하지만, 그 일관성은 다소 낮습니다. 나아가 ConvexTok은 사용자가 특정 목적 함수 (objective)에 대해 하한선 (lower bound)을 통해 자신의 토크나이저가 최적값으로부터 얼마나 떨어져 있는지 인증할 수 있게 해주며, 우리는 일반적인 어휘 집합 크기에서 이것이 최적값의 1% 이내에 있음을 경험적으로 확인했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

볼록 완화 (Convex Relaxations)를 통한 토큰화 (Tokenisation)

요약

핵심 포인트

댓글