MinGram: 높은 압축률과 경쟁력 있는 형태소 정렬을 갖춘 미니멀리스트 Unigram 토크나이저
요약
MinGram은 Unigram 토크나이저의 복잡한 학습 과정을 단순화한 새로운 방식입니다. BPE 기반 시드 어휘와 가지치기 기법을 통해 학습 효율을 높이면서도 높은 압축률과 우수한 형태소 정렬 성능을 동시에 달성했습니다.
핵심 포인트
- Unigram의 복잡한 학습 과정을 단순화한 MinGram 제안
- BPE 유도 시드 어휘와 단일 평면 점수 가지치기 활용
- 기존 BPE 및 표준 Unigram 대비 우수한 압축 성능 입증
- 높은 압축률을 유지하며 형태소 정렬 및 다운스트림 품질 보존
Unigram 토크나이저는 어휘 사전(vocabulary)을 편집하기 용이한 우아한 표현 방식을 사용하지만, 그 학습 과정은 상대적으로 무겁고 복잡합니다. 우리는 토큰 리스트(token-list) 표현 방식은 유지하면서, BPE에서 유도된 시드 어휘(seed vocabulary), 최소 토큰 경로에서의 Hard EM, 그리고 단일 평면 점수 가지치기(flat score-pruning) 단계를 사용하여 학습을 단순화한 MinGram (Minimalist Unigram)을 소개합니다. 이를 통해 접미사 배열(suffix array), 순방향-역방향 패스(forward-backward pass), 그리고 반복적인 가지치기 루프(iterative prune loop)를 제거하여, 토크나이저 추론(inference) 자체 외에는 거의 요구되지 않는 절차를 구현했습니다. 토큰 수를 주요 목표로 설정하고 Unigram 점수를 오직 동점자 처리(tiebreak) 용도로만 사용함으로써, MinGram은 순수 토큰 수 기반 방식의 압축률을 유지하는 동시에 확률론적 방식의 형태소 정렬(morphological alignment) 및 다운스트림 품질을 상당 부분 보존합니다. 6개 언어에 걸친 실험에서 MinGram은 BPE와 표준 Unigram 모두보다 더 나은 압축 성능을 보였으며, 압축 중심 변형 모델은 가장 강력한 토큰 수 기반 압축기들과 대등한 성능을 보이면서도 실질적으로 훨씬 더 높은 형태소 정렬 성능을 유지했습니다. 통제된 다운스트림 언어 모델(language-model) 학습에서, MinGram을 포함한 Unigram 계열 토크나이저들은 bits-per-byte 측면에서 BPE를 지속적으로 능가했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기