영어 중심 개발을 넘어선 LLM 발전을 위한 연구
요약
오픈 웨이트 LLM이 영어 데이터에 심하게 편향되어 있음을 분석하고, 이를 해결하기 위한 지속적 사전 학습(continual pre-training)의 효율성을 검토했습니다. 연구 결과, 지속적 사전 학습은 문화적 이해를 개선하는 데 있어 처음부터 학습시키는 방식보다 비용 효율적이지 않은 것으로 나타났습니다. 이는 향후 LLM 개발이 영어 중심의 자원 확장보다는 언어별 전용 투자로 전환될 필요가 있음을 시사합니다.
핵심 포인트
- 오픈 웨이트 LLM의 시퀀스 분석 결과 영어 편향성이 확인됨
- 지속적 사전 학습(continual pre-training)이 문화적 이해 개선 측면에서 비용 효율적이지 않음
- 언어별 전용 데이터 및 모델 학습에 대한 투자의 중요성 증대
오픈 웨이트 거대 언어 모델 (open-weight LLMs)이 생성하는 시퀀스에 대한 분석을 통해, 우리는 LLM이 영어에 심하게 편향되어 있음을 입증합니다. LLM을 대상 언어에 적응시키기 위해 지속적 사전 학습 (continual pre-training)이 흔히 사용되지만, 우리는 이것이 대상 언어의 문화적 이해를 개선하는 데 있어서조차 처음부터 학습시키는 것보다 비용 측면에서 이점이 없음을 보여줍니다. 이러한 연구 결과는 향후 LLM 개발에 있어 영어 중심의 자원 확장에 주로 의존하기보다는, 언어별 전용 투자가 점점 더 중요해질 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기