아프리카 언어 세금: Frontier LLM에서 아프리카 언어 토큰화의 비용, 지연 시간 및 컨텍스트 페널티 정량화
요약
아프리카 언어 사용 시 발생하는 토큰화 비용, 지연 시간 및 컨텍스트 용량의 페널티를 정량적으로 분석한 연구입니다. 특정 언어와 문자의 경우 영어 대비 최대 8.9배의 비용과 지연 시간이 발생하며, 이는 디지털 격차를 심화시키는 구조적 문제임을 지적합니다.
핵심 포인트
- 아프리카 언어는 영어보다 높은 토큰화 프리미엄을 가짐
- N'Ko 문자의 경우 영어 대비 최대 8.92배의 토큰 비용 발생
- 높은 토큰 비옥도로 인해 유효 컨텍스트 창이 급격히 감소
- Gemma 4가 아프리카 언어 토큰화 효율 면에서 우수한 성능을 보임
- 측정 도구 afri-fertility 및 데이터셋 공개를 통한 격차 완화 시도
상용 거대 언어 모델 (Large Language Models, LLMs)은 토큰당 비용을 청구하고, 지연 시간 (latency)을 조절하며, 컨텍스트 (context) 예산을 할당합니다. 그러나 토크나이저 (tokenizer)는 일부 언어에서 동일한 의미에 대해 다른 언어보다 더 많은 서브워드 (subword) 토큰을 할당하므로, 토큰 비옥도 (token-fertility)가 높은 언어의 사용자들은 모델이 호출되기도 전에 구조적인 페널티 (penalty)를 지불하게 됩니다. 이러한 페널티는 일반적인 다국어 환경에서 문서화되어 왔으나, 기업용 배포 경제학 및 인지적 컨텍스트 용량 수준에서 아프리카 언어에 대해 체계적으로 측정된 적은 없습니다. 우리는 5개의 언어군과 3개의 문자 (Latin, Ge'ez/Ethiopic, N'Ko)에 걸친 20개의 아프리카 언어를 대상으로, 언어적 효과를 콘텐츠로부터 분리하기 위해 병렬 코퍼스 (parallel corpora)를 사용하여 측정하였습니다 (19개는 주요 FLORES-200+ 코퍼스에 등장하며, Nigerian Pidgin은 MAFAND-MT를 통해 측정됨). FLORES-200+를 사용한 11개의 Frontier 및 오픈 토크나이저 (tokenizer) 전반에 걸쳐, 모든 아프리카 언어는 영어보다 높은 토큰화 프리미엄 (tokenization premium)을 가집니다 (GPT-5 / o200k_base 기준 중앙값 1.88배, N'Ko의 경우 최대 8.92배). 이 페널티는 Ethiopic 및 N'Ko 문자의 경우 가장 크며 (7~9배에 달함), 코퍼스 전반에 걸쳐 거의 불변합니다 (FLORES vs SIB-200 Pearson r = 0.9998). 배포 관점에서 번역하면, 이는 최대 8.9배의 추론 비용 (inference cost)과 그에 상응하는 생성 지연 시간 (generation-latency) 배수를 초래하며 (GPT-5 기준 N'Ko vs 영어, Amharic의 경우 7.4배), 영어의 유효 컨텍스트 창 (effective context window)의 11% 수준에 불과하게 만듭니다. 현재 아프리카 언어에 대해 사용 가능한 최선의 토크나이저는 Gemma 4로, 평균 프리미엄을 3.31배 (cl100k_base)에서 2.38배로 줄여주지만, 어떤 토크나이저도 이 페널티를 완전히 제거하지는 못합니다. 우리는 아프리카 개발자들을 위해 오픈 측정 도구 (afri-fertility), 공개 리더보드, 결과 데이터셋 및 완화 가이드를 공개합니다. 이 페널티는 이를 감당할 여력이 가장 적은 언어 사용자들에게 가장 가혹하게 작용하며, 이는 서브워드 어휘 (subword vocabulary)에 직접적으로 인코딩된 디지털 격차 (digital divide)입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기