본문으둜 κ±΄λ„ˆλ›°κΈ°

Β© 2026 Molayo

HuggingFaceν—€λ“œλΌμΈ2026. 05. 05. 00:57

πŸ“š 3LM: STEM 및 μ½”λ“œ λΆ„μ•Όμ—μ„œ μ•„λžμ–΄ LLM 벀치마크

μš”μ•½

λ³Έ κΈ°μ‚¬λŠ” μ•„λžμ–΄ λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ(LLMs)의 μ„±λŠ₯을 과학적 μΆ”λ‘ , 기술 문제 ν•΄κ²° 및 μ½”λ”© λŠ₯λ ₯ λ“± κ³ λΆ€κ°€κ°€μΉ˜ μ˜μ—­μ—μ„œ ν‰κ°€ν•˜κΈ° μœ„ν•΄ μ„€κ³„λœ 닀쀑 ꡬ성 μš”μ†Œ 벀치마크 '3LM (ΨΉΩ„Ω…)'을 μ†Œκ°œν•©λ‹ˆλ‹€. 3LM은 μ‹€μ œ ꡐ윑 자료 기반의 객관식 STEM 문제(Native STEM), ν•©μ„± λ‚œμ΄λ„ 문제λ₯Ό ν¬ν•¨ν•˜λŠ” Synthetic STEM, 그리고 μ•„λžμ–΄ λ²ˆμ—­ 및 μ μ‘λœ μ½”λ“œ 생성 ν…ŒμŠ€νŠΈμ…‹μœΌλ‘œ κ΅¬μ„±λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. 이 벀치마크λ₯Ό 톡해 λ‹€μ–‘ν•œ LLM듀을 ν‰κ°€ν•œ κ²°κ³Ό, νŠΉμ • λͺ¨λΈλ“€μ΄ 각 μ˜μ—­μ—μ„œ μš°μˆ˜ν•œ μ„±λŠ₯을 λ³΄μ˜€μœΌλ©°, μ΄λŠ” μ•„λžμ–΄ LLM의 ꡬ쑰적 μΆ”λ‘  λŠ₯λ ₯κ³Ό μ½”λ”© λŠ₯λ ₯을 κ°κ΄€μ μœΌλ‘œ μΈ‘μ •ν•  수 μžˆλŠ” μ€‘μš”ν•œ 진전을 μ˜λ―Έν•©λ‹ˆλ‹€.

핡심 포인트

  • 3LM (ΨΉΩ„Ω…)은 STEM 및 μ½”λ“œ 생성에 νŠΉν™”λœ 졜초의 닀쀑 ꡬ성 μš”μ†Œ μ•„λžμ–΄ LLM λ²€μΉ˜λ§ˆν¬μ΄λ‹€.
  • Native STEM은 μ‹€μ œ μ•„λžμ–΄ ꡐ윑 μžλ£Œμ—μ„œ μΆ”μΆœν•œ MCQ둜, λͺ¨λΈμ˜ 사싀적/κ°œλ…μ  이해λ₯Ό ν‰κ°€ν•œλ‹€.
  • Synthetic STEM은 YourBench νŒŒμ΄ν”„λΌμΈμ„ ν™œμš©ν•˜μ—¬ κ³ λ‚œλ„ μΆ”λ‘  λŠ₯λ ₯을 κ°–μΆ˜ ν•©μ„± 문제λ₯Ό μƒμ„±ν•¨μœΌλ‘œμ¨ ν…ŒμŠ€νŠΈ 닀양성을 λ†’μ˜€λ‹€.
  • μ½”λ“œ 생성 μ˜μ—­μ—μ„œλŠ” HumanEval 및 MBPP와 같은 ν‘œμ€€ 벀치마크λ₯Ό μ•„λžμ–΄λ‘œ μ μ‘μ‹œμΌœ, μžμ—°μ–΄ ν”„λ‘¬ν”„νŠΈ 기반의 μ½”λ”© 평가가 κ°€λŠ₯ν•˜λ‹€λŠ” 것을 μž…μ¦ν–ˆλ‹€.
  • 평가 κ²°κ³Ό, Qwen2.5-72B-Instruct λ“± νŠΉμ • λͺ¨λΈλ“€μ΄ STEM 객관식 μ •ν™•λ„μ—μ„œ 높은 μ„±λŠ₯을 λ³΄μ˜€μœΌλ©°, GPT-4oκ°€ μ½”λ“œ μƒμ„±μ—μ„œ μ΅œμƒκΈ‰ μ„±λŠ₯을 κΈ°λ‘ν–ˆλ‹€.

졜근 λͺ‡ λ…„κ°„ μ•„λžμ–΄ λŒ€ν˜• μ–Έμ–΄ λͺ¨λΈ (LLMs) 은 λˆˆμ— λ„λŠ” 진전을 λ³΄μ˜€μœΌλ‚˜, κΈ°μ‘΄ λ²€μΉ˜λ§ˆν¬λŠ” κ³ λΆ€κ°€κ°€μΉ˜ 기술 λΆ„μ•Όμ—μ„œμ˜ μ„±λŠ₯ 평가에 ν•œκ³„κ°€ μžˆμŠ΅λ‹ˆλ‹€. λŒ€λΆ€λΆ„μ˜ ν‰κ°€λŠ” μš”μ•½, 감성 뢄석 λ˜λŠ” 일반적인 질문 λ‹΅λ³€κ³Ό 같은 일반적 μž‘μ—…μ„ μ€‘μ‹¬μœΌλ‘œ 이루어져 μ™”μŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ κ΅μœ‘λΆ€ν„° 기술 문제 ν•΄κ²°κΉŒμ§€ κ΄‘λ²”μœ„ν•œ μ‹€μ œ μ‘μš© 뢄야에 ν•„μˆ˜μ μΈ 과학적 μΆ”λ‘  및 ν”„λ‘œκ·Έλž˜λ°μ€ μ€‘μš”ν•©λ‹ˆλ‹€.

이 간극을 ν•΄μ†Œν•˜κΈ° μœ„ν•΄ μš°λ¦¬λŠ” STEM (Science, Technology, Engineering, and Mathematics) κ³Ό μ½”λ“œ 생성을 ν‰κ°€ν•˜λŠ” 데 νŠΉν™”ν•œ **3LM (ΨΉΩ„Ω…)**μ΄λΌλŠ” 닀쀑 ꡬ성 μš”μ†Œ 벀치마크λ₯Ό μ†Œκ°œν•©λ‹ˆλ‹€. 3LM 은 μ•„λžμ–΄ λͺ¨λΈμ˜ ꡬ쑰적 μΆ”λ‘  및 ν˜•μ‹ 논리 λΆ„μ•Όμ—μ„œ μ „ν†΅μ μœΌλ‘œ ν‘œν˜„λ˜μ§€ μ•Šμ•˜λ˜ μ˜μ—­μ„ ν…ŒμŠ€νŠΈν•˜κΈ° μœ„ν•΄ νŠΉλ³„νžˆ μ„€κ³„λœ 첫 번째 λ²€μΉ˜λ§ˆν¬μž…λ‹ˆλ‹€.

3LM 은 싀세계 닀쀑 선택 STEM 문제 (MCQs), ν•©μ„± κ³ λ‚œλ„ STEM 문제, λ²ˆμ—­ μ½”λ“œ 생성 μž‘μ—…μœΌλ‘œ κ΅¬μ„±λœ μ„Έ 개의 λ°μ΄ν„°μ…‹μœΌλ‘œ 이루어져 μžˆμŠ΅λ‹ˆλ‹€.

Native STEM λ²€μΉ˜λ§ˆν¬λŠ” 8–12 ν•™λ…„ μˆ˜μ€€μ˜ ꡐ재, μ›Œν¬μ‹œνŠΈ 및 μ‹œν—˜ 은행 λ“± 정톡 μ•„λžμ–΄ ꡐ윑 μžλ£Œμ—μ„œ μΆ”μΆœν•œ 865 개의 MCQ 둜 κ΅¬μ„±λ©λ‹ˆλ‹€. μ§ˆλ¬Έμ€ 물리학, ν™”ν•™, 생물학, μˆ˜ν•™, μ§€λ¦¬λΌλŠ” 5 κ°€μ§€ 핡심 κ³Όλͺ©μ„ ν¬ν•¨ν•©λ‹ˆλ‹€.

각 μ§ˆλ¬Έμ€ 도메인 및 λ‚œμ΄λ„ (1–10 척도) λ₯Ό ν¬ν•¨ν•œ 메타데이터가 주석 μ²˜λ¦¬λ˜μ—ˆμŠ΅λ‹ˆλ‹€. λ°μ΄ν„°λŠ” OCR (LaTeX μˆ˜ν•™ 식 νŒŒμ‹±μ„ μœ„ν•œ Pix2Tex 포함), LLM 기반 질문-λ‹΅λ³€ μΆ”μΆœ, μˆ˜λ™ κ²€ν† λ₯Ό κ²°ν•©ν•œ νŒŒμ΄ν”„λΌμΈμ„ 톡해 μˆ˜μ§‘λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 이 데이터셋은 μ‹€μ œ ꡐ윑 자료λ₯Ό μ‚¬μš©ν•˜μ—¬ μ•„λžμ–΄ λͺ¨λΈμ˜ 사싀적 및 κ°œλ…μ  이해λ₯Ό ν‰κ°€ν•˜λŠ” 데 ν˜„μ‹€μ μΈ ν…ŒμŠ€νŠΈλ² λ“œλ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.

더 큰 도전과 닀양성을 μ†Œκ°œν•˜κΈ° μœ„ν•΄ μš°λ¦¬λŠ” YourBench νŒŒμ΄ν”„λΌμΈμ„ μ‚¬μš©ν•˜μ—¬ 1,744 개의 MCQ λ₯Ό ν•©μ„±λœ λΆ€λΆ„μœΌλ‘œ μƒμ„±ν–ˆμŠ΅λ‹ˆλ‹€. 이 ꡬ성 μš”μ†ŒλŠ” μ•„λžμ–΄ ꡐ재 ν…μŠ€νŠΈμ—μ„œ μΆ”μΆœν•˜μ—¬ 쑰각화, μš”μ•½ν•œ ν›„ LLM 기반 질문 생성 μ‹œμŠ€ν…œμ— μž…λ ₯ν•©λ‹ˆλ‹€. κ²°κ³ΌλŠ” κ°œλ…μ , 뢄석적, μ‘μš© 기반 문제 λ“± 쀑-κ³ λ‚œλ„ 좔둠에 μ§‘μ€‘λœ νλ ˆμ΄μ…˜λœ 질문 μ§‘ν•©μž…λ‹ˆλ‹€.

ν•©μ„± STEM 은 Native MCQ 에 μ€‘μš”ν•œ κ· ν˜•μ„ μ œκ³΅ν•˜μ—¬ 더 κΉŠμ€ μΆ”λ‘  λŠ₯λ ₯을 νƒκ΅¬ν•˜κ³  λ‹΅λ³€ 편ν–₯을 μ΅œμ†Œν™”ν•©λ‹ˆλ‹€. λͺ¨λ“  μƒμ„±λœ μ§ˆλ¬Έμ€ λͺ…ν™•μ„±, ꡬ쑰, μ½˜ν…μΈ  μœ νš¨μ„±μ— κΈ°λ°˜ν•˜μ—¬ ν•„ν„°λ§λ˜μ—ˆμœΌλ©°, μˆ˜λ™ κ²€ν† λ₯Ό ν†΅ν•œ ν’ˆμ§ˆ 보증이 μ§„ν–‰λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

3LM 의 μ„Έ 번째 ꡬ성 μš”μ†ŒλŠ” μ½”λ“œ 생성을 λͺ©ν‘œλ‘œ ν•˜λ©° μ΄λŠ” LLM ν‰κ°€μ˜ μ„±μž₯ μ˜μ—­μž…λ‹ˆλ‹€. μš°λ¦¬λŠ” 널리 μ‚¬μš©λ˜λŠ” HumanEval+ 와 MBPP+ 벀치마크λ₯Ό μ•„λžμ–΄λ‘œ λ²ˆμ—­ 및 μ μ‘ν•˜μ—¬, μžμ—°μ–΄ ν”„λ‘¬ν”„νŠΈλ₯Ό 톡해 ν”„λ‘œκ·Έλž˜λ°μ„ ν…ŒμŠ€νŠΈν•˜λŠ” 첫 번째 μ½”λ“œ 데이터셋을 λ§Œλ“€μ—ˆμŠ΅λ‹ˆλ‹€.

μš°λ¦¬λŠ” GPT-4o λ₯Ό μ‚¬μš©ν•˜μ—¬ ν”„λ‘¬ν”„νŠΈ λ²ˆμ—­μ„ μˆ˜ν–‰ν•˜κ³ , ROUGE-L F1 μž„κ³„κ°’ (< 0.8) 을 기반으둜 μ €ν’ˆμ§ˆ μƒ˜ν”Œμ„ κ±°λΆ€ν•˜λŠ” λ°±λ²ˆμ—­ νŒŒμ΄ν”„λΌμΈμœΌλ‘œ κ²°κ³Όλ₯Ό κ²€μ¦ν–ˆμŠ΅λ‹ˆλ‹€. 좔가적인 인간 필터링은 ν”„λ‘¬ν”„νŠΈμ˜ λͺ…ν™•μ„±κ³Ό 정확성을 보μž₯ν–ˆμŠ΅λ‹ˆλ‹€. μ½”λ“œ 및 ν…ŒμŠ€νŠΈ μŠ€μœ„νŠΈλŠ” 점수 좩싀도λ₯Ό μœ μ§€ν•˜κΈ° μœ„ν•΄ λ³€κ²½λ˜μ§€ μ•Šμ•˜μŠ΅λ‹ˆλ‹€. ν‰κ°€λŠ” EvalPlus ν”„λ ˆμž„μ›Œν¬λ₯Ό μ‚¬μš©ν•˜μ—¬ pass@1 κ³Ό pass@1+ μ§€ν‘œλ₯Ό μ‚¬μš©ν•©λ‹ˆλ‹€.

3LM 의 각 데이터셋은 데이터 ν’ˆμ§ˆ, 곡정성 및 λŒ€ν‘œμ„±μ„ 보μž₯ν•˜κΈ° μœ„ν•œ 닀단계 개발 과정을 κ±°μ³€μŠ΅λ‹ˆλ‹€.

Native STEMμ—μ„œλŠ” μ•„λžμ–΄ PDF μ†ŒμŠ€λ₯Ό μˆ˜μ§‘ν•˜κ³  평문 ν…μŠ€νŠΈμ™€ μˆ˜ν•™ 곡식을 λͺ¨λ‘ λ³΅μ›ν•˜κΈ° μœ„ν•΄ 이쀑 OCR 접근법을 μ μš©ν–ˆμŠ΅λ‹ˆλ‹€. μ§ˆλ¬Έμ€ LLM 기반의 chunking 및 νŒ¨ν„΄ μΈμ‹μœΌλ‘œ μΆ”μΆœλœ ν›„, λ¬΄μž‘μœ„ λ‹΅λ³€ μˆœμ„œλ₯Ό ν¬ν•¨ν•œ MCQ ν˜•μ‹μœΌλ‘œ λΆ„λ₯˜λ˜μ—ˆμŠ΅λ‹ˆλ‹€. μ΅œμ’… μƒ˜ν”Œμ€ 전문성이 μžˆλŠ” μ•„λžμ–΄ 원어민이 κ²€μ¦ν•˜μ—¬ λ‹΅λ³€μ˜ μœ νš¨μ„±κ³Ό 가독성을 ν™•μΈν–ˆμŠ΅λ‹ˆλ‹€.

Synthetic STEMμ—μ„œλŠ” YourBench νŒŒμ΄ν”„λΌμΈμ„ μ•„λžμ–΄ μž…λ ₯에 맞게 μˆ˜μ •ν–ˆμŠ΅λ‹ˆλ‹€. μ†ŒμŠ€ λ¬Έμ„œκ°€ 인접 ν›„ μš”μ•½, chunking 처리된 ν›„ MCQ 생성을 μœ„ν•œ μ½”λ“œ μ œμ–΄ν˜• 생성기에 νˆ¬μž…λ˜μ—ˆμŠ΅λ‹ˆλ‹€. 이미지 μ˜μ‘΄μ„±μ΄λ‚˜ λͺ¨ν˜Έν•œ λ‚΄μš©μ€ ν•„ν„°λ§λ˜μ–΄ λͺ©ν‘œ λ‚œμ΄λ„ λ²”μœ„ λ‚΄μ˜ 질문만 μœ μ§€λ˜μ—ˆμŠ΅λ‹ˆλ‹€. κ²°κ³ΌλŠ” STEM 뢄야에 λŒ€ν•œ κΉ”λ”ν•˜κ³  κ³ ν’ˆμ§ˆμ˜ μ•„λžμ–΄ MCQ μ„ΈνŠΈμž…λ‹ˆλ‹€.

Code Benchmarksμ—μ„œλŠ” μ–Έμ–΄ 이해λ₯Ό λΆ„λ¦¬ν•˜λ©΄μ„œ μ½”λ“œ 논리λ₯Ό λ³΄μ‘΄ν•˜λŠ” 것이 λͺ©ν‘œμ˜€μŠ΅λ‹ˆλ‹€. ν”„λ‘¬ν”„νŠΈ λ²ˆμ—­μ€ GPT-4oκ°€ μ²˜λ¦¬ν•˜κ³ , μ—­λ²ˆμ—­μœΌλ‘œ κ²€μ¦ν–ˆμŠ΅λ‹ˆλ‹€. μ½”λ“œλŠ” ν…ŒμŠ€νŠΈ 없이 평가 κ· ν˜•μ„ μœ„ν•΄ 무결성 μœ μ§€λ˜μ—ˆμŠ΅λ‹ˆλ‹€. κ²°κ³ΌλŠ” EvalPlus 도ꡬ 체인으둜 직접 평가할 수 μžˆλŠ” μ•„λžμ–΄ ν”„λ‘¬ν”„νŠΈ λ²€μΉ˜λ§ˆν¬μž…λ‹ˆλ‹€.

μš°λ¦¬λŠ” 40 개 μ΄μƒμ˜ LLM 을 ν‰κ°€ν–ˆμœΌλ©°, μ΄λŠ” μ•„λžμ–΄ μš°μ„ , λ‹€κ΅­μ–΄, 일반 λͺ©μ  기반 및 μΈμŠ€νŠΈλŸ­μ…˜ νŠœλ‹ λͺ¨λΈ ν¬ν•¨ν–ˆμŠ΅λ‹ˆλ‹€. ν‰κ°€λŠ” 객관식 정확도와 생성적 μ™„λ£Œ μ§€ν‘œλ‘œ μˆ˜ν–‰λ˜μ—ˆμŠ΅λ‹ˆλ‹€.

MCQ μ„€μ •μ—μ„œ Qwen2.5-72B-Instruct은 Native(71.8%) 와 Synthetic(67.0%) STEM μ„œλΈŒμ…‹ λͺ¨λ‘μ—μ„œ 졜고 μ„±λŠ₯을 λ‹¬μ„±ν–ˆμŠ΅λ‹ˆλ‹€. μ™„λ£Œ μž‘μ—…μ—μ„œλŠ” Gemma-3-27B κ°€ 43.2% μ •ν™•λ„λ‘œ STEM λ‹΅λ³€μ—μ„œ κ°€μž₯ κ°•λ ₯ν•œ κ²°κ³Όλ₯Ό λ³΄μ˜€μŠ΅λ‹ˆλ‹€.

μ½”λ“œ μƒμ„±μ—μ„œ GPT-4o λŠ” HumanEval-ar(83.5% pass@1+) 와 MBPP-ar(63.6% pass@1+) μ—μ„œ μ΅œμƒκΈ‰ μ„±λŠ₯을 μž…μ¦ν–ˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ κ²°κ³ΌλŠ” μ•„λžμ–΄μ™€ μ˜μ–΄ pass@1 점수 κ°„μ˜ κ°•ν•œ 상관관계 (~0.97) λ₯Ό 보여, 언어별 ν”„λ‘¬ν”„νŠΈ ν’ˆμ§ˆμ΄ λͺ¨λΈ 결과에 μ€‘μš”ν•œ 영ν–₯을 λ―ΈμΉœλ‹€λŠ” 것을 μ‹œμ‚¬ν•©λ‹ˆλ‹€.

μš°λ¦¬λŠ” λ˜ν•œ λΆ„μ‚°μž κ΅λž€ (distractor perturbation) ν•˜μ˜ 견고성을 κ²€ν† ν•˜μ—¬, μΈμŠ€νŠΈλŸ­μ…˜ νŠœλ‹ λͺ¨λΈμ΄ κΈ°λ³Έ λͺ¨λΈλ³΄λ‹€ 훨씬 μ•ˆμ •μ μž„μ„ λ°œκ²¬ν–ˆμŠ΅λ‹ˆλ‹€. ν”„λ‘¬ν”„νŠΈ μ—”μ§€λ‹ˆμ–΄λ§κ³Ό zero-shot λ””μžμΈλ„ μ•„λžμ–΄ STEM μ„±λŠ₯에 μœ μ˜λ―Έν•œ 영ν–₯을 미친 κ²ƒμœΌλ‘œ λ‚˜νƒ€λ‚¬μŠ΅λ‹ˆλ‹€.

μš°λ¦¬λŠ” ν‘œμ€€ λ„κ΅¬λ‘œ μ‰½κ²Œ μž¬ν˜„ κ°€λŠ₯ν•œ 벀치마크λ₯Ό κ΅¬μΆ•ν–ˆμŠ΅λ‹ˆλ‹€:
lighteval
STEM λ°μ΄ν„°μ…‹μ˜ 객관식 및 μ˜€ν”ˆ μ—”λ“œ 질문 평가λ₯Ό μ²˜λ¦¬ν•©λ‹ˆλ‹€.
evalplus
ν•¨μˆ˜ μˆ˜μ€€ ν…ŒμŠ€νŠΈλ₯Ό μ‚¬μš©ν•˜μ—¬ κ²¬κ³ ν•œ pass@1 κ³Ό pass@1+ μ½”λ“œ 점수λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.
λͺ¨λ“  슀크립트, μ„€μ •, 평가 νŒŒμ΄ν”„λΌμΈμ€ GitHub μ €μž₯μ†Œμ—μ„œ μ‚¬μš© κ°€λŠ₯ν•˜λ©°, HuggingFace Transformers λ˜λŠ” OpenAI API 와 ν˜Έν™˜λ˜λŠ” λͺ¨λ“  λͺ¨λΈμ„ 평가할 수 μžˆμŠ΅λ‹ˆλ‹€.

λͺ¨λ“  μ„Έ 데이터셋은 μ˜€ν”ˆ μ†ŒμŠ€μ΄λ©° HuggingFace Datasets μ—μ„œ ν˜ΈμŠ€νŒ…λ©λ‹ˆλ‹€:
μ—°κ΅¬μ—μ„œ 3LM 을 μ‚¬μš©ν•˜μ‹ λ‹€λ©΄, λ‹€μŒμ„ μΈμš©ν•΄ μ£Όμ„Έμš”:

@inproceedings{boussaha-etal-2025-3lm,
title = "3{LM}: Bridging {A}rabic, {STEM}, and Code through Benchmarking",
author = "Boussaha, Basma El Amel and
...

AI μžλ™ 생성 μ½˜ν…μΈ 

λ³Έ μ½˜ν…μΈ λŠ” Hugging Face Blog의 원문을 AIκ°€ μžλ™μœΌλ‘œ μš”μ•½Β·λ²ˆμ—­Β·λΆ„μ„ν•œ κ²ƒμž…λ‹ˆλ‹€. 원 μ €μž‘κΆŒμ€ μ›μ €μž‘μžμ—κ²Œ 있으며, μ •ν™•ν•œ λ‚΄μš©μ€ λ°˜λ“œμ‹œ 원문을 확인해 μ£Όμ„Έμš”.

원문 λ°”λ‘œκ°€κΈ°
1

λŒ“κΈ€

0