arXiv논문2026. 04. 23. 22:24

대규모언어 모델(LLMs)은 언어별로 성능 편차가 크며, 단순한 다국어 파인튜닝 과정에서 부정적인 교차

요약

LLM은 언어별 성능 편차가 크고, 단순한 다국어 파인튜닝(fine-tuning)은 종종 부정적인 교차 언어 간섭을 일으킵니다. 저희는 이러한 문제를 해결하기 위해 COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling)라는 새로운 데이터 중심 프레임워크를 제안합니다. COMPASS는 적절하게 선별된 보조 다국어 데이터를 사용하여 경량의 언어별 어댑터(adapter)를 학습하는 Parameter-Efficient Fine-Tuning (PEFT) 방식을 활용합니다.

핵심 포인트

COMPASS는 분포 인식 샘플링 전략을 사용해 데이터 부족 영역(semantic gaps)을 찾아내고, 이를 통해 긍정적인 교차 언어 전이를 극대화하며 간섭은 최소화합니다.
이 방법론은 지속 학습 (Continual Learning) 프레임워크인 COMPASS-ECDA로 확장되어, 실제 환경의 데이터 분포 변화를 감지하고 어댑터를 동적으로 업데이트하여 모델 노후화를 방지합니다.
Phi-4-Mini, Llama-3.1-8B, Qwen2.5-7B 등 다양한 아키텍처와 Global-MMLU 같은 까다로운 다국어 벤치마크에서 기존 방식보다 우수한 성능을 입증했습니다.

대규모 언어 모델(LLMs)은 언어별로 성능 편차가 크며, 단순한 다국어 파인튜닝 과정에서 부정적인 교차 언어 간섭이 발생하기 쉽습니다. 저희는 이 문제를 해결하고자 COMPASS (COntinual Multilingual PEFT with Adaptive Semantic Sampling)라는 새로운 데이터 중심 프레임워크를 제시합니다.

COMPASS는 Parameter-Efficient Fine-Tuning (PEFT)을 활용하여, 신중하게 선택된 보조 다국어 데이터를 기반으로 경량의 언어별 어댑터를 학습시킵니다. 이 방법론의 핵심은 분포 인지 샘플링 전략입니다. 이는 다국어 임베딩과 클러스터링을 사용하여 기존 훈련 데이터와 목표 사용 분포 사이의 의미적 격차(semantic gaps)를 식별합니다.

COMPASS는 이러한 의미적으로 부족한 보조 데이터를 우선순위로 활용함으로써, 긍정적인 교차 언어 전이는 최대화하고 간섭은 최소화하는 것을 목표로 합니다. 나아가 이를 지속 학습 (Continual Learning) 프레임워크인 COMPASS-ECDA로 확장했습니다. 이 버전은 실제 서비스 환경에서 데이터 분포 변화를 모니터링하며 어댑터를 동적으로 업데이트하여, 새로운 지식 습득과 기존 지식 보존의 균형을 맞춥니다.

실험 결과, COMPASS는 Phi-4-Mini, Llama-3.1-8B, Qwen2.5-7B 등 다양한 모델 아키텍처와 Global-MMLU 같은 까다로운 다국어 벤치마크에서 기존의 언어적 유사성에 기반한 방식들보다 일관되게 뛰어난 성능을 보여주었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모언어 모델(LLMs)은 언어별로 성능 편차가 크며, 단순한 다국어 파인튜닝 과정에서 부정적인 교차

요약

핵심 포인트

댓글