언어 모델에게 역사적 이탈리아어는 얼마나 놀라운가? 토큰화 비용(Tokenization Tax), 이해 비용(Comprehension Tax)
요약
LLM이 역사적 언어를 처리할 때 발생하는 난이도를 토큰화 비용과 이해 비용으로 분해하여 분석한 연구입니다. 17세기 이탈리아어와 18세기 러시아어 데이터를 통해 인코딩 비용과 예측 불확실성의 차이를 규명했습니다.
핵심 포인트
- 역사적 언어의 난이도를 4가지 차원으로 분해하는 진단 프레임워크 제안
- 토큰화 페널티와 예측 불확실성(Surprisal) 사이의 뚜렷한 분리 확인
- 임베딩 유사도는 높게 유지되어 역사적 의미 표현은 견고함이 입증됨
- 시간적 문맥 프롬프트 사용 시 역사적 놀라움(Surprisal)이 약 60% 감소
대규모 언어 모델 (LLMs)은 디지털 도서관 워크플로에서 점점 더 중요해지고 있지만, 역사적 언어를 처리하는 능력은 여전히 제대로 이해되지 않고 있습니다. 역사적 난이도는 일반적으로 철자 변이(orthographic variation), 언어적 거리(linguistic distance), 그리고 사전 학습 노출(pretraining exposure)을 혼동하여 하나의 단일한 장벽으로 취급됩니다. 본 논문에서 우리는 이러한 난이도를 네 가지 별개의 차원, 즉 토큰화 비용 (tokenization cost), 예측 불확실성 (predictive uncertainty, surprisal), 의미론적 견고성 (semantic robustness), 그리고 문맥 민감도 (context sensitivity)로 분해하는 진단 프레임워크를 제안합니다. 우리는 3세기에 걸친 세 가지 데이터셋을 통해 이 프레임워크를 평가합니다: (1) 원본 페이지 이미지에서 디지털화된 17세기 이탈리아어 텍스트 (1610-1689)로 구성된 새롭게 큐레이션된 코퍼스; (2) 높은 노출도를 가진 대조군 역할을 하는 정전(canonical) 19세기 이탈리아어 "I Promessi Sposi"; (3) 대조적인 철자 스트레스 테스트로서의 18세기 러시아 민간 인쇄본 도서. 우리의 결과는 인코딩 비용과 이해 사이의 뚜렷한 분리를 보여줍니다. 러시아어와 근대 초기 이탈리아어는 유사한 토큰화 페널티 (25-30% 인플레이션)를 겪지만, 예측 난이도는 급격히 갈라집니다. 17세기 이탈리아어는 현대어보다 평균 2.4배 더 놀라움을 주며(학술 산문은 3.2배에 달함), 반면 러시아어는 완만한 증가만을 보입니다. 그러나 예측 불확실성이 표현력의 저하를 의미하지는 않습니다: 임베딩 유사도 (embedding similarity)는 모든 데이터셋에서 견고하게 유지되어 (> 0.85), 모델이 생성이 불안정할 때조차 역사적 의미를 표현할 수 있음을 확인시켜 줍니다. 마지막으로, 우리는 최소한의 시간적 문맥 프롬프트 (temporal context prompt)가 역사적 놀라움(surprisal)을 약 60% 감소시킨다는 것을 입증하며, 이는 간단하고 모델에 구애받지 않는 (model-agnostic) 완화 방법을 제공합니다. 이러한 발견은 역사적 텍스트가 일관된 인코딩 비용을 부과하지만, 생성형 애플리케이션을 주의 깊게 조정한다면 디지털 도서관이 의미론적 검색 작업을 위해 LLMs를 안전하게 배치할 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기