π 3LM: STEM λ° μ½λ λΆμΌμμ μλμ΄ LLM λ²€μΉλ§ν¬
μμ½
λ³Έ κΈ°μ¬λ μλμ΄ λν μΈμ΄ λͺ¨λΈ(LLMs)μ μ±λ₯μ κ³Όνμ μΆλ‘ , κΈ°μ λ¬Έμ ν΄κ²° λ° μ½λ© λ₯λ ₯ λ± κ³ λΆκ°κ°μΉ μμμμ νκ°νκΈ° μν΄ μ€κ³λ λ€μ€ κ΅¬μ± μμ λ²€μΉλ§ν¬ '3LM (ΨΉΩΩ )'μ μκ°ν©λλ€. 3LMμ μ€μ κ΅μ‘ μλ£ κΈ°λ°μ κ°κ΄μ STEM λ¬Έμ (Native STEM), ν©μ± λμ΄λ λ¬Έμ λ₯Ό ν¬ν¨νλ Synthetic STEM, κ·Έλ¦¬κ³ μλμ΄ λ²μ λ° μ μλ μ½λ μμ± ν μ€νΈμ μΌλ‘ ꡬμ±λμ΄ μμ΅λλ€. μ΄ λ²€μΉλ§ν¬λ₯Ό ν΅ν΄ λ€μν LLMλ€μ νκ°ν κ²°κ³Ό, νΉμ λͺ¨λΈλ€μ΄ κ° μμμμ μ°μν μ±λ₯μ 보μμΌλ©°, μ΄λ μλμ΄ LLMμ ꡬ쑰μ μΆλ‘ λ₯λ ₯κ³Ό μ½λ© λ₯λ ₯μ κ°κ΄μ μΌλ‘ μΈ‘μ ν μ μλ μ€μν μ§μ μ μλ―Έν©λλ€.
ν΅μ¬ ν¬μΈνΈ
- 3LM (ΨΉΩΩ )μ STEM λ° μ½λ μμ±μ νΉνλ μ΅μ΄μ λ€μ€ κ΅¬μ± μμ μλμ΄ LLM λ²€μΉλ§ν¬μ΄λ€.
- Native STEMμ μ€μ μλμ΄ κ΅μ‘ μλ£μμ μΆμΆν MCQλ‘, λͺ¨λΈμ μ¬μ€μ /κ°λ μ μ΄ν΄λ₯Ό νκ°νλ€.
- Synthetic STEMμ YourBench νμ΄νλΌμΈμ νμ©νμ¬ κ³ λλ μΆλ‘ λ₯λ ₯μ κ°μΆ ν©μ± λ¬Έμ λ₯Ό μμ±ν¨μΌλ‘μ¨ ν μ€νΈ λ€μμ±μ λμλ€.
- μ½λ μμ± μμμμλ HumanEval λ° MBPPμ κ°μ νμ€ λ²€μΉλ§ν¬λ₯Ό μλμ΄λ‘ μ μμμΌ, μμ°μ΄ ν둬ννΈ κΈ°λ°μ μ½λ© νκ°κ° κ°λ₯νλ€λ κ²μ μ μ¦νλ€.
- νκ° κ²°κ³Ό, Qwen2.5-72B-Instruct λ± νΉμ λͺ¨λΈλ€μ΄ STEM κ°κ΄μ μ νλμμ λμ μ±λ₯μ 보μμΌλ©°, GPT-4oκ° μ½λ μμ±μμ μ΅μκΈ μ±λ₯μ κΈ°λ‘νλ€.
μ΅κ·Ό λͺ λ κ° μλμ΄ λν μΈμ΄ λͺ¨λΈ (LLMs) μ λμ λλ μ§μ μ 보μμΌλ, κΈ°μ‘΄ λ²€μΉλ§ν¬λ κ³ λΆκ°κ°μΉ κΈ°μ λΆμΌμμμ μ±λ₯ νκ°μ νκ³κ° μμ΅λλ€. λλΆλΆμ νκ°λ μμ½, κ°μ± λΆμ λλ μΌλ°μ μΈ μ§λ¬Έ λ΅λ³κ³Ό κ°μ μΌλ°μ μμ μ μ€μ¬μΌλ‘ μ΄λ£¨μ΄μ Έ μμ΅λλ€. κ·Έλ¬λ κ΅μ‘λΆν° κΈ°μ λ¬Έμ ν΄κ²°κΉμ§ κ΄λ²μν μ€μ μμ© λΆμΌμ νμμ μΈ κ³Όνμ μΆλ‘ λ° νλ‘κ·Έλλ°μ μ€μν©λλ€.
μ΄ κ°κ·Ήμ ν΄μνκΈ° μν΄ μ°λ¦¬λ STEM (Science, Technology, Engineering, and Mathematics) κ³Ό μ½λ μμ±μ νκ°νλ λ° νΉνν **3LM (ΨΉΩΩ )**μ΄λΌλ λ€μ€ κ΅¬μ± μμ λ²€μΉλ§ν¬λ₯Ό μκ°ν©λλ€. 3LM μ μλμ΄ λͺ¨λΈμ ꡬ쑰μ μΆλ‘ λ° νμ λ Όλ¦¬ λΆμΌμμ μ ν΅μ μΌλ‘ ννλμ§ μμλ μμμ ν μ€νΈνκΈ° μν΄ νΉλ³ν μ€κ³λ 첫 λ²μ§Έ λ²€μΉλ§ν¬μ λλ€.
3LM μ μ€μΈκ³ λ€μ€ μ ν STEM λ¬Έμ (MCQs), ν©μ± κ³ λλ STEM λ¬Έμ , λ²μ μ½λ μμ± μμ μΌλ‘ ꡬμ±λ μΈ κ°μ λ°μ΄ν°μ μΌλ‘ μ΄λ£¨μ΄μ Έ μμ΅λλ€.
Native STEM λ²€μΉλ§ν¬λ 8β12 νλ μμ€μ κ΅μ¬, μν¬μνΈ λ° μν μν λ± μ ν΅ μλμ΄ κ΅μ‘ μλ£μμ μΆμΆν 865 κ°μ MCQ λ‘ κ΅¬μ±λ©λλ€. μ§λ¬Έμ 물리ν, νν, μλ¬Όν, μν, μ§λ¦¬λΌλ 5 κ°μ§ ν΅μ¬ κ³Όλͺ©μ ν¬ν¨ν©λλ€.
κ° μ§λ¬Έμ λλ©μΈ λ° λμ΄λ (1β10 μ²λ) λ₯Ό ν¬ν¨ν λ©νλ°μ΄ν°κ° μ£Όμ μ²λ¦¬λμμ΅λλ€. λ°μ΄ν°λ OCR (LaTeX μν μ νμ±μ μν Pix2Tex ν¬ν¨), LLM κΈ°λ° μ§λ¬Έ-λ΅λ³ μΆμΆ, μλ κ²ν λ₯Ό κ²°ν©ν νμ΄νλΌμΈμ ν΅ν΄ μμ§λμμ΅λλ€. μ΄ λ°μ΄ν°μ μ μ€μ κ΅μ‘ μλ£λ₯Ό μ¬μ©νμ¬ μλμ΄ λͺ¨λΈμ μ¬μ€μ λ° κ°λ μ μ΄ν΄λ₯Ό νκ°νλ λ° νμ€μ μΈ ν μ€νΈλ² λλ₯Ό μ 곡ν©λλ€.
λ ν° λμ κ³Ό λ€μμ±μ μκ°νκΈ° μν΄ μ°λ¦¬λ YourBench νμ΄νλΌμΈμ μ¬μ©νμ¬ 1,744 κ°μ MCQ λ₯Ό ν©μ±λ λΆλΆμΌλ‘ μμ±νμ΅λλ€. μ΄ κ΅¬μ± μμλ μλμ΄ κ΅μ¬ ν μ€νΈμμ μΆμΆνμ¬ μ‘°κ°ν, μμ½ν ν LLM κΈ°λ° μ§λ¬Έ μμ± μμ€ν μ μ λ ₯ν©λλ€. κ²°κ³Όλ κ°λ μ , λΆμμ , μμ© κΈ°λ° λ¬Έμ λ± μ€-κ³ λλ μΆλ‘ μ μ§μ€λ νλ μ΄μ λ μ§λ¬Έ μ§ν©μ λλ€.
ν©μ± STEM μ Native MCQ μ μ€μν κ· νμ μ 곡νμ¬ λ κΉμ μΆλ‘ λ₯λ ₯μ νꡬνκ³ λ΅λ³ νΈν₯μ μ΅μνν©λλ€. λͺ¨λ μμ±λ μ§λ¬Έμ λͺ νμ±, ꡬ쑰, μ½ν μΈ μ ν¨μ±μ κΈ°λ°νμ¬ νν°λ§λμμΌλ©°, μλ κ²ν λ₯Ό ν΅ν νμ§ λ³΄μ¦μ΄ μ§νλμμ΅λλ€.
3LM μ μΈ λ²μ§Έ κ΅¬μ± μμλ μ½λ μμ±μ λͺ©νλ‘ νλ©° μ΄λ LLM νκ°μ μ±μ₯ μμμ λλ€. μ°λ¦¬λ λ리 μ¬μ©λλ HumanEval+ μ MBPP+ λ²€μΉλ§ν¬λ₯Ό μλμ΄λ‘ λ²μ λ° μ μνμ¬, μμ°μ΄ ν둬ννΈλ₯Ό ν΅ν΄ νλ‘κ·Έλλ°μ ν μ€νΈνλ 첫 λ²μ§Έ μ½λ λ°μ΄ν°μ μ λ§λ€μμ΅λλ€.
μ°λ¦¬λ GPT-4o λ₯Ό μ¬μ©νμ¬ ν둬ννΈ λ²μμ μννκ³ , ROUGE-L F1 μκ³κ° (< 0.8) μ κΈ°λ°μΌλ‘ μ νμ§ μνμ κ±°λΆνλ λ°±λ²μ νμ΄νλΌμΈμΌλ‘ κ²°κ³Όλ₯Ό κ²μ¦νμ΅λλ€. μΆκ°μ μΈ μΈκ° νν°λ§μ ν둬ννΈμ λͺ νμ±κ³Ό μ νμ±μ 보μ₯νμ΅λλ€. μ½λ λ° ν μ€νΈ μ€μνΈλ μ μ μΆ©μ€λλ₯Ό μ μ§νκΈ° μν΄ λ³κ²½λμ§ μμμ΅λλ€. νκ°λ EvalPlus νλ μμν¬λ₯Ό μ¬μ©νμ¬ pass@1 κ³Ό pass@1+ μ§νλ₯Ό μ¬μ©ν©λλ€.
3LM μ κ° λ°μ΄ν°μ μ λ°μ΄ν° νμ§, 곡μ μ± λ° λνμ±μ 보μ₯νκΈ° μν λ€λ¨κ³ κ°λ° κ³Όμ μ κ±°μ³€μ΅λλ€.
Native STEMμμλ μλμ΄ PDF μμ€λ₯Ό μμ§νκ³ νλ¬Έ ν μ€νΈμ μν 곡μμ λͺ¨λ 볡μνκΈ° μν΄ μ΄μ€ OCR μ κ·Όλ²μ μ μ©νμ΅λλ€. μ§λ¬Έμ LLM κΈ°λ°μ chunking λ° ν¨ν΄ μΈμμΌλ‘ μΆμΆλ ν, 무μμ λ΅λ³ μμλ₯Ό ν¬ν¨ν MCQ νμμΌλ‘ λΆλ₯λμμ΅λλ€. μ΅μ’ μνμ μ λ¬Έμ±μ΄ μλ μλμ΄ μμ΄λ―Όμ΄ κ²μ¦νμ¬ λ΅λ³μ μ ν¨μ±κ³Ό κ°λ μ±μ νμΈνμ΅λλ€.
Synthetic STEMμμλ YourBench νμ΄νλΌμΈμ μλμ΄ μ λ ₯μ λ§κ² μμ νμ΅λλ€. μμ€ λ¬Έμκ° μΈμ ν μμ½, chunking μ²λ¦¬λ ν MCQ μμ±μ μν μ½λ μ μ΄ν μμ±κΈ°μ ν¬μ λμμ΅λλ€. μ΄λ―Έμ§ μμ‘΄μ±μ΄λ λͺ¨νΈν λ΄μ©μ νν°λ§λμ΄ λͺ©ν λμ΄λ λ²μ λ΄μ μ§λ¬Έλ§ μ μ§λμμ΅λλ€. κ²°κ³Όλ STEM λΆμΌμ λν κΉλνκ³ κ³ νμ§μ μλμ΄ MCQ μΈνΈμ λλ€.
Code Benchmarksμμλ μΈμ΄ μ΄ν΄λ₯Ό λΆλ¦¬νλ©΄μ μ½λ λ Όλ¦¬λ₯Ό 보쑴νλ κ²μ΄ λͺ©νμμ΅λλ€. ν둬ννΈ λ²μμ GPT-4oκ° μ²λ¦¬νκ³ , μλ²μμΌλ‘ κ²μ¦νμ΅λλ€. μ½λλ ν μ€νΈ μμ΄ νκ° κ· νμ μν΄ λ¬΄κ²°μ± μ μ§λμμ΅λλ€. κ²°κ³Όλ EvalPlus λꡬ 체μΈμΌλ‘ μ§μ νκ°ν μ μλ μλμ΄ ν둬ννΈ λ²€μΉλ§ν¬μ λλ€.
μ°λ¦¬λ 40 κ° μ΄μμ LLM μ νκ°νμΌλ©°, μ΄λ μλμ΄ μ°μ , λ€κ΅μ΄, μΌλ° λͺ©μ κΈ°λ° λ° μΈμ€νΈλμ νλ λͺ¨λΈ ν¬ν¨νμ΅λλ€. νκ°λ κ°κ΄μ μ νλμ μμ±μ μλ£ μ§νλ‘ μνλμμ΅λλ€.
MCQ μ€μ μμ Qwen2.5-72B-Instructμ Native(71.8%) μ Synthetic(67.0%) STEM μλΈμ λͺ¨λμμ μ΅κ³ μ±λ₯μ λ¬μ±νμ΅λλ€. μλ£ μμ μμλ Gemma-3-27B κ° 43.2% μ νλλ‘ STEM λ΅λ³μμ κ°μ₯ κ°λ ₯ν κ²°κ³Όλ₯Ό 보μμ΅λλ€.
μ½λ μμ±μμ GPT-4o λ HumanEval-ar(83.5% pass@1+) μ MBPP-ar(63.6% pass@1+) μμ μ΅μκΈ μ±λ₯μ μ μ¦νμ΅λλ€. μ΄λ¬ν κ²°κ³Όλ μλμ΄μ μμ΄ pass@1 μ μ κ°μ κ°ν μκ΄κ΄κ³ (~0.97) λ₯Ό 보μ¬, μΈμ΄λ³ ν둬ννΈ νμ§μ΄ λͺ¨λΈ κ²°κ³Όμ μ€μν μν₯μ λ―ΈμΉλ€λ κ²μ μμ¬ν©λλ€.
μ°λ¦¬λ λν λΆμ°μ κ΅λ (distractor perturbation) νμ κ²¬κ³ μ±μ κ²ν νμ¬, μΈμ€νΈλμ νλ λͺ¨λΈμ΄ κΈ°λ³Έ λͺ¨λΈλ³΄λ€ ν¨μ¬ μμ μ μμ λ°κ²¬νμ΅λλ€. ν둬ννΈ μμ§λμ΄λ§κ³Ό zero-shot λμμΈλ μλμ΄ STEM μ±λ₯μ μ μλ―Έν μν₯μ λ―ΈμΉ κ²μΌλ‘ λνλ¬μ΅λλ€.
μ°λ¦¬λ νμ€ λκ΅¬λ‘ μ½κ² μ¬ν κ°λ₯ν λ²€μΉλ§ν¬λ₯Ό ꡬμΆνμ΅λλ€:
lighteval
STEM λ°μ΄ν°μ
μ κ°κ΄μ λ° μ€ν μλ μ§λ¬Έ νκ°λ₯Ό μ²λ¦¬ν©λλ€.
evalplus
ν¨μ μμ€ ν
μ€νΈλ₯Ό μ¬μ©νμ¬ κ²¬κ³ ν pass@1 κ³Ό pass@1+ μ½λ μ μλ₯Ό μ 곡ν©λλ€.
λͺ¨λ μ€ν¬λ¦½νΈ, μ€μ , νκ° νμ΄νλΌμΈμ GitHub μ μ₯μμμ μ¬μ© κ°λ₯νλ©°, HuggingFace Transformers λλ OpenAI API μ νΈνλλ λͺ¨λ λͺ¨λΈμ νκ°ν μ μμ΅λλ€.
λͺ¨λ μΈ λ°μ΄ν°μ
μ μ€ν μμ€μ΄λ©° HuggingFace Datasets μμ νΈμ€ν
λ©λλ€:
μ°κ΅¬μμ 3LM μ μ¬μ©νμ λ€λ©΄, λ€μμ μΈμ©ν΄ μ£ΌμΈμ:
@inproceedings{boussaha-etal-2025-3lm,
title = "3{LM}: Bridging {A}rabic, {STEM}, and Code through Benchmarking",
author = "Boussaha, Basma El Amel and
...
AI μλ μμ± μ½ν μΈ
λ³Έ μ½ν μΈ λ Hugging Face Blogμ μλ¬Έμ AIκ° μλμΌλ‘ μμ½Β·λ²μΒ·λΆμν κ²μ λλ€. μ μ μκΆμ μμ μμμκ² μμΌλ©°, μ νν λ΄μ©μ λ°λμ μλ¬Έμ νμΈν΄ μ£ΌμΈμ.
μλ¬Έ λ°λ‘κ°κΈ°