arXiv논문2026. 05. 12. 07:00

EngGPT2MoE-16B-A3B를 유사한 이탈리아 및 국제 오픈 소스 LLM과 비교 벤치마킹

요약

본 보고서는 16B 파라미터 MoE 구조를 가진 EngGPT2MoE-16B-A3B LLM을 다양한 국제 및 이탈리아 오픈 소스 모델과 비교하여 성능을 벤치마킹한 결과를 제시합니다. 주요 벤치마크(ARC-Challenge, GSM8K, MMLU 등)에서 EngGPT2MoE-16B-A3B는 유사한 크기의 이탈리아 모델들보다 동등하거나 우수한 성능을 입증했습니다. 특히 32k 컨텍스트를 지원하는 RULER 벤치마크에서도 최고 성능을 기록하며, 네이티브 이탈리아 LLM 분야의 발전을 보여주었습니다.

핵심 포인트

EngGPT2MoE-16B-A3B는 16B 파라미터 MoE 구조를 채택하여 높은 효율성을 가집니다.
다양한 국제 및 이탈리아 모델들과 비교했을 때, 주요 학술/코딩 벤치마크에서 우수한 성능을 보였습니다.
RULER와 같은 긴 컨텍스트(32k) 환경에서도 최고 수준의 성능을 달성했습니다.
전반적으로 네이티브 이탈리아 LLM 생태계에 중요한 진전을 가져왔음을 시사합니다.

본 보고서는 ENGINEERING Ingegneria Informatica S.p.A.의 EngGPT2MoE-16B-A3B LLM, 즉 3B 활성 파라미터를 가진 16B 파라미터 혼합 전문가(Mixture of Experts, MoE) 모델의 성능을 벤치마킹합니다. 이 성능은 광범위한 다양한 대표적인 벤치마크를 통해 조사되었으며, 유사한 크기의 오픈 소스 MoE 및 밀집(dense) 모델과 비교됩니다. 인기 있는 이탈리아 모델들, 즉 FastwebMIIA-7B, Minerva-7B, Velvet-14B, 그리고 LLaMAntino-3-ANITA-8B와 비교했을 때, EngGPT2MoE-16B-A3B는 국제 벤치마크인 ARC-Challenge, GSM8K, AIME24, AIME25, MMLU, HumanEval (HE)에서 동등하거나 더 나은 성능을 보입니다. 또한 RULER 벤치마크의 가장 긴 컨텍스트 설정(32k)에서도 최고의 성능을 달성합니다. 이탈리아 벤치마크 데이터셋 ITALIC에서는 모델이 다음과 같이 성능을 보여줍니다.

RULER는 32k 컨텍스트를 가집니다. 모든 벤치마크 지표에 걸쳐 성능을 종합했을 때, EngGPT2MoE-16B-A3B는 평가된 이탈리아 모델들보다 더 높은 성능을 보였지만, 특히 GPT-5 nano 및 Qwen3-8B와 같은 가장 성능이 좋은 국제 모델들의 결과보다는 낮은 수준을 달성했습니다. 전반적으로 우리의 연구 결과는 새로운 모델이 네이티브 이탈리아 대규모 언어 모델(LLM)에게 한 단계의 진전을 이루었음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

EngGPT2MoE-16B-A3B를 유사한 이탈리아 및 국제 오픈 소스 LLM과 비교 벤치마킹

요약

핵심 포인트

댓글