TokAlign++: 더 나은 토큰 정렬 (Token Alignment)을 통한 어휘 적응 (Vocabulary Adaptation)의 발전
요약
TokAlign++는 LLMs의 성능 저하를 야기하는 비효율적인 토큰화 및 어휘 불일치 문제를 해결하기 위해 제안된 방법입니다. 이 방법은 더 나은 '토큰 정렬 어휘집(token alignment lexicon)'을 학습하여 다국어 텍스트 압축률을 높이고, 기존 모델의 다국어 능력을 효과적으로 보존합니다. 실험 결과에 따르면, TokAlign++는 적은 단계의 미세 조정을 통해 베이스 모델의 성능을 크게 개선할 수 있음을 입증했습니다.
핵심 포인트
- TokAlign++는 토큰화 과정에서 발생하는 어휘 불일치 문제를 해결하는 데 중점을 둡니다.
- 이 방법은 소스 및 타겟 언어 간의 이중 언어 토큰 정렬 어휘집을 학습하여 단일 언어 표현으로부터 성능을 향상시킵니다.
- TokAlign++를 적용하면 다국어 텍스트 압축률을 높이고 기존 모델의 다국어 능력을 효과적으로 보존할 수 있습니다.
- 적은 양의 데이터(예: 1k 단계)와 적은 토큰만으로도 베이스 모델의 성능 개선이 가능합니다.
토큰화 (Tokenization)는 거대 언어 모델 (LLMs)의 텍스트 처리 과정에서 기초적인 단계입니다. 텍스트는 먼저 토큰 ID (token IDs)로 토큰화되어야 하며, 그 후 LLMs에 입력됩니다. 비효율적인 토큰화는 긴 토큰 ID 시퀀스를 초래하여 LLMs의 학습 및 추론 속도를 늦춥니다. 토큰 수준 증류 (token-level distillation)와 같은 LLMs 간의 미세한 지식 전이 (fine-grained knowledge transfer) 또한 어휘 (vocabulary)의 불일치로 인해 방해를 받습니다. 이 격차를 해소하기 위해, 우리는 더 나은 토큰 정렬 어휘집 (token alignment lexicon)을 학습함으로써 어휘 적응 (vocabulary adaptation) 성능을 향상시키는 TokAlign++라는 방법을 소개합니다. 소스 (source) 및 타겟 (target) 어휘는 두 개의 서로 다른 언어로 간주되며, 이중 언어 토큰 정렬 어휘집은 단일 언어 토큰 표현 (monolingual token representations)으로부터 학습됩니다. 모델 파라미터 (Model parameters)는 새로운 어휘를 위해 이 이중 언어 어휘집을 따라 재배열되며, 적응을 위해 점진적으로 미세 조정 (fine-tuned)됩니다. 15개 언어에 대한 실험 결과, 우리의 방법은 다국어 텍스트 압축률을 높이고 기존 모델 (vanilla models)의 다국어 능력을 대부분 보존함을 보여줍니다. 기존 모델의 성능을 복구하는 데에는 단 1k 단계 (1k steps)면 충분합니다. 기존 모델 간의 어휘를 통일한 후, 토큰 수준 증류 (token-level distillation)는 단 235M 개의 토큰만으로 베이스 모델 (base model)을 현저하게 개선합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기