EngGPT2MoE-16B-A3B를 유사한 이탈리아 및 국제 오픈 소스 LLM과 비교 벤치마킹
요약
본 보고서는 16B 파라미터 MoE 구조를 가진 EngGPT2MoE-16B-A3B LLM을 다양한 국제 및 이탈리아 오픈 소스 모델과 비교하여 성능을 벤치마킹한 결과를 제시합니다. 주요 벤치마크(ARC-Challenge, GSM8K, MMLU 등)에서 EngGPT2MoE-16B-A3B는 유사한 크기의 이탈리아 모델들보다 동등하거나 우수한 성능을 입증했습니다. 특히 32k 컨텍스트를 지원하는 RULER 벤치마크에서도 최고 성능을 기록하며, 네이티브 이탈리아 LLM 분야의 발전을 보여주었습니다.
핵심 포인트
- EngGPT2MoE-16B-A3B는 16B 파라미터 MoE 구조를 채택하여 높은 효율성을 가집니다.
- 다양한 국제 및 이탈리아 모델들과 비교했을 때, 주요 학술/코딩 벤치마크에서 우수한 성능을 보였습니다.
- RULER와 같은 긴 컨텍스트(32k) 환경에서도 최고 수준의 성능을 달성했습니다.
- 전반적으로 네이티브 이탈리아 LLM 생태계에 중요한 진전을 가져왔음을 시사합니다.
본 보고서는 ENGINEERING Ingegneria Informatica S.p.A.의 EngGPT2MoE-16B-A3B LLM, 즉 3B 활성 파라미터를 가진 16B 파라미터 혼합 전문가(Mixture of Experts, MoE) 모델의 성능을 벤치마킹합니다. 이 성능은 광범위한 다양한 대표적인 벤치마크를 통해 조사되었으며, 유사한 크기의 오픈 소스 MoE 및 밀집(dense) 모델과 비교됩니다. 인기 있는 이탈리아 모델들, 즉 FastwebMIIA-7B, Minerva-7B, Velvet-14B, 그리고 LLaMAntino-3-ANITA-8B와 비교했을 때, EngGPT2MoE-16B-A3B는 국제 벤치마크인 ARC-Challenge, GSM8K, AIME24, AIME25, MMLU, HumanEval (HE)에서 동등하거나 더 나은 성능을 보입니다. 또한 RULER 벤치마크의 가장 긴 컨텍스트 설정(32k)에서도 최고의 성능을 달성합니다. 이탈리아 벤치마크 데이터셋 ITALIC에서는 모델이 다음과 같이 성능을 보여줍니다.
RULER는 32k 컨텍스트를 가집니다. 모든 벤치마크 지표에 걸쳐 성능을 종합했을 때, EngGPT2MoE-16B-A3B는 평가된 이탈리아 모델들보다 더 높은 성능을 보였지만, 특히 GPT-5 nano 및 Qwen3-8B와 같은 가장 성능이 좋은 국제 모델들의 결과보다는 낮은 수준을 달성했습니다. 전반적으로 우리의 연구 결과는 새로운 모델이 네이티브 이탈리아 대규모 언어 모델(LLM)에게 한 단계의 진전을 이루었음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기