arXiv논문2026. 05. 18. 22:40

영어 중심 개발을 넘어선 LLM 발전을 위한 연구

요약

오픈 웨이트 LLM이 영어 데이터에 심하게 편향되어 있음을 분석하고, 이를 해결하기 위한 지속적 사전 학습(continual pre-training)의 효율성을 검토했습니다. 연구 결과, 지속적 사전 학습은 문화적 이해를 개선하는 데 있어 처음부터 학습시키는 방식보다 비용 효율적이지 않은 것으로 나타났습니다. 이는 향후 LLM 개발이 영어 중심의 자원 확장보다는 언어별 전용 투자로 전환될 필요가 있음을 시사합니다.

핵심 포인트

오픈 웨이트 LLM의 시퀀스 분석 결과 영어 편향성이 확인됨
지속적 사전 학습(continual pre-training)이 문화적 이해 개선 측면에서 비용 효율적이지 않음
언어별 전용 데이터 및 모델 학습에 대한 투자의 중요성 증대

오픈 웨이트 거대 언어 모델 (open-weight LLMs)이 생성하는 시퀀스에 대한 분석을 통해, 우리는 LLM이 영어에 심하게 편향되어 있음을 입증합니다. LLM을 대상 언어에 적응시키기 위해 지속적 사전 학습 (continual pre-training)이 흔히 사용되지만, 우리는 이것이 대상 언어의 문화적 이해를 개선하는 데 있어서조차 처음부터 학습시키는 것보다 비용 측면에서 이점이 없음을 보여줍니다. 이러한 연구 결과는 향후 LLM 개발에 있어 영어 중심의 자원 확장에 주로 의존하기보다는, 언어별 전용 투자가 점점 더 중요해질 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

영어 중심 개발을 넘어선 LLM 발전을 위한 연구

요약

핵심 포인트

댓글