arXiv논문2026. 06. 26. 12:20

언어 모델에게 역사적 이탈리아어는 얼마나 놀라운가? 토큰화 비용(Tokenization Tax), 이해 비용(Comprehension Tax)

요약

LLM이 역사적 언어를 처리할 때 발생하는 난이도를 토큰화 비용과 이해 비용으로 분해하여 분석한 연구입니다. 17세기 이탈리아어와 18세기 러시아어 데이터를 통해 인코딩 비용과 예측 불확실성의 차이를 규명했습니다.

핵심 포인트

역사적 언어의 난이도를 4가지 차원으로 분해하는 진단 프레임워크 제안
토큰화 페널티와 예측 불확실성(Surprisal) 사이의 뚜렷한 분리 확인
임베딩 유사도는 높게 유지되어 역사적 의미 표현은 견고함이 입증됨
시간적 문맥 프롬프트 사용 시 역사적 놀라움(Surprisal)이 약 60% 감소

대규모 언어 모델 (LLMs)은 디지털 도서관 워크플로에서 점점 더 중요해지고 있지만, 역사적 언어를 처리하는 능력은 여전히 제대로 이해되지 않고 있습니다. 역사적 난이도는 일반적으로 철자 변이(orthographic variation), 언어적 거리(linguistic distance), 그리고 사전 학습 노출(pretraining exposure)을 혼동하여 하나의 단일한 장벽으로 취급됩니다. 본 논문에서 우리는 이러한 난이도를 네 가지 별개의 차원, 즉 토큰화 비용 (tokenization cost), 예측 불확실성 (predictive uncertainty, surprisal), 의미론적 견고성 (semantic robustness), 그리고 문맥 민감도 (context sensitivity)로 분해하는 진단 프레임워크를 제안합니다. 우리는 3세기에 걸친 세 가지 데이터셋을 통해 이 프레임워크를 평가합니다: (1) 원본 페이지 이미지에서 디지털화된 17세기 이탈리아어 텍스트 (1610-1689)로 구성된 새롭게 큐레이션된 코퍼스; (2) 높은 노출도를 가진 대조군 역할을 하는 정전(canonical) 19세기 이탈리아어 "I Promessi Sposi"; (3) 대조적인 철자 스트레스 테스트로서의 18세기 러시아 민간 인쇄본 도서. 우리의 결과는 인코딩 비용과 이해 사이의 뚜렷한 분리를 보여줍니다. 러시아어와 근대 초기 이탈리아어는 유사한 토큰화 페널티 (25-30% 인플레이션)를 겪지만, 예측 난이도는 급격히 갈라집니다. 17세기 이탈리아어는 현대어보다 평균 2.4배 더 놀라움을 주며(학술 산문은 3.2배에 달함), 반면 러시아어는 완만한 증가만을 보입니다. 그러나 예측 불확실성이 표현력의 저하를 의미하지는 않습니다: 임베딩 유사도 (embedding similarity)는 모든 데이터셋에서 견고하게 유지되어 (> 0.85), 모델이 생성이 불안정할 때조차 역사적 의미를 표현할 수 있음을 확인시켜 줍니다. 마지막으로, 우리는 최소한의 시간적 문맥 프롬프트 (temporal context prompt)가 역사적 놀라움(surprisal)을 약 60% 감소시킨다는 것을 입증하며, 이는 간단하고 모델에 구애받지 않는 (model-agnostic) 완화 방법을 제공합니다. 이러한 발견은 역사적 텍스트가 일관된 인코딩 비용을 부과하지만, 생성형 애플리케이션을 주의 깊게 조정한다면 디지털 도서관이 의미론적 검색 작업을 위해 LLMs를 안전하게 배치할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 모델에게 역사적 이탈리아어는 얼마나 놀라운가? 토큰화 비용(Tokenization Tax), 이해 비용(Comprehension Tax)

요약

핵심 포인트

댓글