arXiv논문2026. 06. 15. 11:21

Perplexity를 넘어: 바이트 인식 언어 모델(Byte-aware Language Models)에서의 UTF-8 유효성

요약

바이트 수준 토큰화 모델이 유효한 UTF-8 시퀀스를 생성하는 능력과 학습 규모 사이의 관계를 연구합니다. Perplexity가 안정화된 이후에도 UTF-8 유효성 확보를 위해서는 더 많은 학습 데이터가 필요함을 입증했습니다.

핵심 포인트

바이트 수준 토큰화 모델의 UTF-8 구조적 유효성 분석
UTF-8 유효성 수렴 속도가 Perplexity보다 약 2배 느림
신뢰할 수 있는 UTF-8 생성을 위한 별도의 평가 프로토콜 필요성 제기
희귀 문자의 과잉 전문화 현상 관찰

바이트 수준 토큰화(Byte-level tokenization)는 언어 모델이 모든 Unicode 입력을 처리할 수 있게 해주지만, 모델은 희귀하거나 학습되지 않은 문자를 만났을 때 유효하지 않은 UTF-8 시퀀스를 생성할 수 있습니다. 우리는 영어, 일본어, 한국어, 중국어로 구성된 균형 잡힌 다국어 코퍼스에서 80B 토큰으로 학습된 355M 파라미터 모델을 사용하여 학습 규모와 UTF-8 생성 신뢰성 사이의 관계를 조사합니다. 우리는 언어 모델링(Language modeling)으로부터 UTF-8 구조적 유효성을 분리하여 평가하는 여러 평가 프로토콜을 도입합니다. UTF-8 유효성의 수렴은 Perplexity(혼란도)보다 대략 2배 정도 뒤처집니다. 즉, Perplexity는 2.1B 토큰 이후 안정화되지만, UTF-8 유효성은 4.2B 토큰을 필요로 합니다. 문맥 없는 생성(In context-free generation)에서 희귀 문자는 일반적인 문자보다 더 높은 구조적 유효성을 달성하며, 이는 빈번한 문자 표현의 과잉 전문화(Over-specialization)를 시사합니다. 실험을 통해 우리는 신뢰할 수 있는 UTF-8 생성이 Perplexity를 넘어선 별도의 평가가 필요한 독자적인 능력임을 관찰했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Perplexity를 넘어: 바이트 인식 언어 모델(Byte-aware Language Models)에서의 UTF-8 유효성

요약

핵심 포인트

댓글