arXiv논문2026. 06. 23. 14:13

LangMAP: 언어 적응형 토큰화 (Tokenization) 접근 방식

요약

LangMAP은 단일 공유 어휘 사전에서 언어별 토큰화를 생성하는 새로운 접근 방식을 제안합니다. 사전 학습된 모델의 어휘 사전을 변경하지 않고도 개별 언어에 적응시킬 수 있으며, 추론 시 언어 라벨 없이도 작동하는 것이 특징입니다.

핵심 포인트

UnigramLM을 다국어 환경으로 확장한 LangMAP 제안
어휘 사전 수정 없이 기존 모델의 토크나이저를 언어별로 적응 가능
추론 시 입력 언어에 대한 별도의 지식 없이 토큰화 수행
형태소 경계 및 프로그래밍 언어의 AST 리프 경계 정렬 개선

언어별 토크나이저 (Language-specific tokenizers)는 해당 언어에 대한 토큰화 (Tokenization) 품질과 모델의 다운스트림 성능 (downstream performance)을 향상시킵니다. 그러나 이러한 토크나이저를 사용하는 데에는 비용이 따릅니다. 즉, 새로운 모델을 처음부터 학습시키거나, 기존에 사전 학습된 모델 (pretrained model)의 어휘 사전 (vocabulary)을 조정해야 합니다. 우리는 UnigramLM 알고리즘을 다국어 환경으로 확장하여, 단일 공유 어휘 사전으로부터 언어별 토큰화를 생성하는 토큰화 방식인 LangMAP (Language-adaptive Maximum a Posteriori) 토큰화를 제안합니다. 특히, LangMAP은 다국어 언어 모델을 처음부터 학습할 때나, 어휘 사전을 변경하지 않고 사전 학습된 모델의 토크나이저를 개별 언어에 적응시킬 때 사용할 수 있습니다. 학습 시에는 언어 라벨 (language labels)이 필요하지만, 이 알고리즘의 핵심 특징은 추론 (inference) 시에는 입력 언어에 대한 지식 없이도 언어별 토큰화를 수행한다는 점입니다. 14개의 오픈 소스 토크나이저, 9개의 자연어, 그리고 9개의 프로그래밍 언어를 대상으로 실험한 결과, LangMAP은 형태소 경계 정렬 (morphological boundary alignment)을 개선하였으며, 테스트된 모든 코딩 언어에 대해 추상 구문 트리 (AST) 리프 경계 (leaf boundaries)와의 정렬을 개선했습니다. 미세 조정 (fine-tuning) 실험 결과는 엇갈렸습니다. LangMAP은 테스트된 언어들에 대해 대상 언어의 문법적 수용성 (grammatical acceptability, MultiBLiMP)을 향상시켰으나, 지식 관련 작업 (knowledge-related tasks, Global-PIQA, Belebele)에서의 이점은 덜 일관적이었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LangMAP: 언어 적응형 토큰화 (Tokenization) 접근 방식

요약

핵심 포인트

댓글