๐ต๐ญ FilBench - LLM ์ด ํ๊ฐ๋ก๊ทธ (Tagalog), ํ๋ฆฌํ์ด (Filipino) ๋ฐ ์ธ๋ถ์๋ ธ (Cebuano) ๋ฅผ ์ดํดํ๊ณ ์์ฑํ
์์ฝ
FilBench๋ ํ๊ฐ๋ก๊ทธ(Tagalog), ํ๋ฆฌํ์ด(Filipino), ์ธ๋ถ์๋ ธ(Cebuano) ๋ฑ ํ๋ฆฌํ ์ธ์ด์ ๋ํ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ์ฑ๋ฅ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ๊ธฐ ์ํด ๊ฐ๋ฐ๋ ํฌ๊ด์ ์ธ ๋ฒค์น๋งํฌ์ ๋๋ค. ์ด ๋ฒค์น๋งํฌ๋ ๋ฌธํ์ ์ง์, ๊ณ ์ NLP, ๋ ํด ์ดํด, ์์ฑ ๋ค ๊ฐ์ง ์ฃผ์ ์นดํ ๊ณ ๋ฆฌ๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉฐ, ๊ฐ ์์ญ์์ LLM์ ๊น์ด ์๋ ๋ฅ๋ ฅ์ ์ธก์ ํฉ๋๋ค. ํ๊ฐ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด, ๋๋จ์์์ ํนํ(SEA-specific) ๋ชจ๋ธ๋ค์ด ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์์ผ๋, ์ฌ์ ํ GPT-4o์ ๊ฐ์ ์ต์ ํด๋ก์ฆ๋์์ค ๋ชจ๋ธ์๋ ๋ฏธ์น์ง ๋ชปํ์ต๋๋ค. ํ์ง๋ง FilBench๋ ํ๋ฆฌํ์ด/SEA ํนํ ๋ฐ์ดํฐ๋ฅผ ์ง์์ ์ผ๋ก ํ๋ ์ด์ ํ๊ณ ํ์ธํ๋ํ๋ ๋ ธ๋ ฅ์ด ์ฌ์ ํ ๋งค์ฐ ์ค์ํ๋ฉฐ, ์ด ๋ถ์ผ์ ์ฐ๊ตฌ ๋ฐฉํฅ์ ์ ์ํฉ๋๋ค.
ํต์ฌ ํฌ์ธํธ
- FilBench๋ ํ๊ฐ๋ก๊ทธ, ์ธ๋ถ์๋ ธ ๋ฑ ํ๋ฆฌํ ์ธ์ด์ ๋ํ LLM ์ฑ๋ฅ์ ์ธก์ ํ๋ ํฌ๊ด์ ์ธ ํ๊ฐ ํ๋ ์์ํฌ์ด๋ค.
- ํ๊ฐ๋ ๋ฌธํ์ ์ง์, ๊ณ ์ NLP, ๋ ํด ์ดํด, ์์ฑ์ 4๊ฐ์ง ํต์ฌ ์นดํ ๊ณ ๋ฆฌ๋ก ๊ตฌ์ฑ๋์ด ๊น์ด ์๋ ๋ถ์์ ์ ๊ณตํ๋ค.
- SEA-specific ๋ชจ๋ธ๋ค์ด ๊ฐ์ฅ ๋์ ์ฑ๋ฅ์ ๋ณด์์ผ๋, ์ต๊ณ ์์ค์ ์ฑ๋ฅ์ ์ฌ์ ํ ์ต์ ํด๋ก์ฆ๋์์ค LLM์ ์์กดํ๊ณ ์๋ค.
- FilBench๋ ํ๋ฆฌํ์ด/SEA ํนํ ๋ฐ์ดํฐ๋ฅผ ํ๋ ์ด์ ํ์ฌ ๊ธฐ๋ณธ LLM์ ํ์ธํ๋ํ๋ ๋ ธ๋ ฅ์ด ์ง์์ ์ธ ์ฑ๋ฅ ํฅ์์ ๋งค์ฐ ์ค์ํจ์ ๊ฐ์กฐํ๋ค.
๊ทธ๋์ ์ฐ๋ฆฌ๋ ํ๊ฐ๋ก๊ทธ (Tagalog), ํ๋ฆฌํ์ด (Filipino: ํ์ค ํ๊ฐ๋ก๊ทธ), ๊ทธ๋ฆฌ๊ณ ์ธ๋ถ์๋ ธ (Cebuano) ์ ์ ์ฐฝ์ฑ, ์ธ์ดํ์ ๋ฐ ๋ฒ์ญ ๋ฅ๋ ฅ, ๊ทธ๋ฆฌ๊ณ ํน์ ๋ฌธํ์ ์ง์์ ๋ํ LLM ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๊ธฐ ์ํ ํฌ๊ด์ ์ธ ํ๊ฐ suites ๋ฅผ ๊ฐ๋ฐํ์ต๋๋ค.
์ฐ๋ฆฌ๋ FilBench ์์ 20 ๊ฐ ์ด์์ ์ต์ ์ํ-of-the-art LLM ์ ํ๊ฐํ์ฌ ํ๋ฆฌํ์ด์์์ ์ฑ๋ฅ์ ์ข ํฉ์ ์ผ๋ก ํ๊ฐํ์ต๋๋ค:
- ๐ ๋ ผ๋ฌธ: https://arxiv.org/abs/2508.03523
- ๐ฅ๏ธ GitHub: https://github.com/filbench/filbench-eval
FilBench ํ๊ฐ suites ๋ ๋ฌธํ์ ์ง์ (Cultural Knowledge), ๊ณ ์ NLP, ๋ ํด ์ดํด (Reading Comprehension), ์์ฑ (Generation) ์ด๋ผ๋ 4 ๊ฐ์ ์ฃผ์ ์นดํ ๊ณ ๋ฆฌ๋ก ๋๋์ด ์์ผ๋ฉฐ 12 ๊ฐ์ ์์ ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๊ณ ์ NLP ์นดํ ๊ณ ๋ฆฌ์๋ ๊ฐ์ฑ ๋ถ์๊ณผ ๊ฐ์ ์์ ์ด ํฌํจ๋๋ฉฐ, ์์ฑ ์์ ์๋ ๋ฒ์ญ์ ๋ค์ํ ์ธก๋ฉด์ด ํฌํจ๋ฉ๋๋ค. ์ด๋ฌํ ์นดํ ๊ณ ๋ฆฌ๊ฐ NLP ์ฐ๊ตฌ ๋ฐ ์ฌ์ฉ์ ์ฐ์ ์์์ ๊ฒฝํฅ์ ๋ฐ์ํ๋๋ก ํ๊ธฐ ์ํด ์ฐ๋ฆฌ๋ 2006 ๋ ๋ถํฐ 2024 ๋ ์ด๊น์ง ํ๋ฆฌํ์ด์ ๋ํ NLP ์ฐ๊ตฌ์ ์ญ์ฌ์ ์กฐ์ฌ์ ๊ธฐ๋ฐํ์ฌ ์ด๋ฅผ ์ ์ ํ์ต๋๋ค. (์ด๋ฌํ ์นดํ ๊ณ ๋ฆฌ๋ค์ ๋๋ถ๋ถ ํ๋ฆฌํ์ด์ ์์ฐ์ค๋ฌ์ด ์ฌ์ฉ์ ์ถฉ์คํ๊ฒ ๋ณด์ฅํ๊ธฐ ์ํด ๋ฒ์ญ๋์ง ์์ ๋ด์ฉ๋ง ํฌํจํฉ๋๋ค.)
๋ฌธํ์ ์ง์ (Cultural Knowledge): ์ด ์นดํ ๊ณ ๋ฆฌ๋ ์ธ์ด ๋ชจ๋ธ์ ์ฌ์ค์ ์ด๊ณ ๋ฌธํ์ ์ผ๋ก ํนํ๋ ์ ๋ณด๋ฅผ ํ์ํ ์ ์๋ ๋ฅ๋ ฅ์ ํ ์คํธํฉ๋๋ค. ๋ฌธํ์ ์ง์์ ์ํด ์ฐ๋ฆฌ๋ LLM ์ ์ง์ญ์ ๋ฐ ์ฌ์ค์ ์ง์ (Global-MMLU), ํ๋ฆฌํ ์ค์ฌ ๊ฐ์น (KALAHI), ๊ทธ๋ฆฌ๊ณ ๋จ์ด ์๋ฏธ ๋ถ๋ณ ๋ฅ๋ ฅ (StingrayBench) ์ ํ ์คํธํ๋ ๋ค์ํ ์์๋ฅผ ์ ์ ํ์ต๋๋ค.
๊ณ ์ NLP: ์ด ์นดํ ๊ณ ๋ฆฌ๋ ์ ๋ฌธํ๋ ํ๋ จ๋ ๋ชจ๋ธ์ด ์ ํต์ ์ผ๋ก ์ํํ๋ ์ ๋ณด ์ถ์ถ ๋ฐ ์ธ์ดํ์ ์์ ์ ๋ค์ํ ์ข ๋ฅ๋ฅผ ํฌํจํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ช ์ฌ ์ธ์, ๊ฐ์ฑ ๋ถ์, ํ ์คํธ ๋ถ๋ฅ ๋ฑ์ ๋๋ค. ์ด ์นดํ ๊ณ ๋ฆฌ์์๋ ๋ช ์ฌ ์ธ์์ ์ํด CebuaNER, TLUnified-NER, Universal NER ์ ์ธ์คํด์ค๋ฅผ ํฌํจํ๋ฉฐ, ํ ์คํธ ๋ถ๋ฅ ๋ฐ ๊ฐ์ฑ ๋ถ์์ ์ํด SIB-200 ๊ณผ BalitaNLP ์ ์๋ธ์ ์ ํฌํจํฉ๋๋ค.
๋ ํด ์ดํด (Reading Comprehension): ์ด ์นดํ ๊ณ ๋ฆฌ๋ ํ๋ฆฌํ์ด ํ ์คํธ๋ฅผ ์ดํดํ๊ณ ํด์ํ ์ ์๋ ์ธ์ด ๋ชจ๋ธ์ ๋ฅ๋ ฅ์ ํ๊ฐํ๋ฉฐ, ๋ ํด๋ ฅ, ์ดํด, ์์ฐ์ด ์ถ๋ก ๊ณผ ๊ฐ์ ์์ ์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ด ์นดํ ๊ณ ๋ฆฌ์์๋ Cebuano Readability Corpus, Belebele, NewsPH NLI ์ ์ธ์คํด์ค๋ฅผ ํฌํจํฉ๋๋ค.
์์ฑ (Generation): ์ฐ๋ฆฌ๋ LLM ์ด ํ ์คํธ๋ฅผ ์ถฉ์คํ๊ฒ ๋ฒ์ญํ ์ ์๋ ๋ฅ๋ ฅ์ ํ ์คํธํ๊ธฐ ์ํด FilBench ์ ์๋น ๋ถ๋ถ์ ํ ์ ํ์ต๋๋ค. ์์ด์์ ํ๋ฆฌํ์ด๋ก ๋๋ ์ธ๋ถ์๋ ธ์์ ์์ด๋ก ๋ฒ์ญํ๋ ์์ ์ ๋๋ค. ์ฐ๋ฆฌ๋ ๋ฌธ์ (NTREX-128), ์์๋ด์ฌ์์ ํ์ค์ ์ธ ํ ์คํธ (Tatoeba), ๋๋ฉ์ธ ํนํ ํ ์คํธ (TICO-19) ๋ฅผ ํฌํจํ ๋ค์ํ ํ ์คํธ ์์ ์งํฉ์ ํฌํจํฉ๋๋ค.
๊ฐ ์นดํ ๊ณ ๋ฆฌ๋ ์ง๊ณ ์งํ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋จ์ผ ๋ํ ์ ์๋ฅผ ๋ง๋ค๊ธฐ ์ํด, ์ฐ๋ฆฌ๋ ๊ฐ ์นดํ ๊ณ ๋ฆฌ์ ์์ ์์ ๊ธฐ๋ฐํ์ฌ ๊ฐ์ค ํ๊ท ์ ๊ณ์ฐํ๋ฉฐ ์ด๋ฅผ FilBench ์ ์๋ผ๊ณ ํฉ๋๋ค.
์ฌ์ฉ๋ฒ์ ๋จ์ํํ๊ณ ์ค์ ์ ์ํด, ์ฐ๋ฆฌ๋ LLM ํ๊ฐ์ฉ ๋ชจ๋ ๊ธฐ๋ฅ ํ๋ ์์ํฌ์ธ Lighteval ์ ๊ธฐ๋ฐ์ผ๋ก FilBench ๋ฅผ ๊ตฌ์ถํ์ต๋๋ค.
์ธ์ด ํนํ ํ๊ฐ๋ฅผ ์ํด, ์ฐ๋ฆฌ๋ ํ๊ฐ์์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉ๋๋ ์ฉ์ด (์: "yes" (oo), "no" (hindi), "true" (totoo) ๋ฑ) ์์ ์์ด์์ ํ๊ฐ๋ก๊ทธ (Tagalog) ๋๋ ์ธ๋ถ์๋
ธ๋ก ๋ฒ์ญ ์์ ๋จผ์ ์ ์ํ์ต๋๋ค.
๊ทธ๋ฐ ๋ค์, ์ฐ๋ฆฌ๊ฐ ๊ด์ฌ ์๋ ๋ฅ๋ ฅ์ ๋ํ ์ปค์คํ
์์
์ ๊ตฌํํ๊ธฐ ์ํด ์ ๊ณต๋ ํ
ํ๋ฆฟ์ ์ฌ์ฉํ์ต๋๋ค.
FilBench ๋ ์ด์ ๊ณต์ Lighteval ์ ์ฅ์์์ ์ปค๋ฎค๋ํฐ ์์ ์ผ๋ก ์ด์ฉ ๊ฐ๋ฅํฉ๋๋ค!
์ฌ๋ฌ LLM ์ FilBench ์์ ํ๊ฐํจ์ผ๋ก์จ ์ฐ๋ฆฌ๋ ํ๋ฆฌํ์ด์์์ ์ฑ๋ฅ์ ๋ํด ๋ช ๊ฐ์ง ํต์ฐฐ๋ ฅ์ ๋ฐ๊ฒฌํ์ต๋๋ค.
Finding #1: Although region-specific LLMs still lag behind GPT-4, collecting data to train these models is still a promising direction
์ต๊ทผ ๋ช ๋ ๊ฐ ๋๋จ์ ์ธ์ด (SEA-specific) ๋ฅผ ๋์์ผ๋ก ํ๋ ์ง์ญ๋ณ LLM ์ด ์ฆ๊ฐํ์ต๋๋ค. SEA-LION ๊ณผ SeaLLM ๊ฐ์ ๋ชจ๋ธ์ด ์ด์ ํด๋นํ๋ฉฐ, ์ด๋ค์ HuggingFace ์์ ์์ ๋กญ๊ฒ ๋ค์ด๋ก๋ํ ์ ์๋ ์คํ_WEIGHT LLM ์ ๋๋ค. ์ฐ๋ฆฌ๋ SEA-specific LLM ์ด ์ฐ๋ฆฌ ์ธ์ด์ ๋ํด ๊ฐ์ฅ ํ๋ผ๋ฏธํฐ ํจ์จ์ ์ด๋ฉฐ, ๋ค๋ฅธ ๋ชจ๋ธ ๋๋น FilBench ์ ์๊ฐ ๊ฐ์ฅ ๋๋ค๊ณ ๋ฐ๊ฒฌํ์ต๋๋ค. ๊ทธ๋ฌ๋ ๊ฐ์ฅ ์ข์ SEA-specific ๋ชจ๋ธ์ ์ฌ์ ํ GPT-4o ๊ฐ์ ํด๋ก์ฆ๋์์ค LLM ์ ๋ฅ๊ฐํ์ง ๋ชปํฉ๋๋ค.
์ง์ญ๋ณ LLM ๊ตฌ์ถ์ด ์ฌ์ ํ ์๋ฏธ๊ฐ ์์ต๋๋ค. ์ฐ๋ฆฌ๋ SEA-specific instruction-tuning ๋ฐ์ดํฐ๋ก ๊ธฐ๋ณธ LLM ์ ์ง์์ ์ผ๋ก Fine-tuning ํ ๋ 2-3% ์ ์ฑ๋ฅ ํฅ์์ ๊ด์ฐฐํ๊ธฐ ๋๋ฌธ์
๋๋ค.
์ด๋ ํ๋ฆฌํ์ด/SEA-specific Training ๋ฐ์ดํฐ๋ฅผ Curate ํ๋ ๋
ธ๋ ฅ์ด ์ฌ์ ํ ๊ด๋ จ์ฑ์ด ๋์ผ๋ฉฐ, FilBench ์์ ๋ ์ข์ ์ฑ๋ฅ์ ๋ฌ์ฑํ ์ ์์์ ์์ฌํฉ๋๋ค.
๋ํ FilBench ์ ๋ค ๊ฐ์ง ์นดํ ๊ณ ๋ฆฌ์์ ๋๋ถ๋ถ์ ๋ชจ๋ธ์ด Generation Capability ์ ์ด๋ ค์์ ๊ฒช๋๋ค๋ ๊ฒ์ ๊ด์ฐฐํ์ต๋๋ค. Generation ์ Failure Mode ๋ฅผ inspect ํ ๋, ์ด๋ ๋ชจ๋ธ์ด ๋ฒ์ญ ์ง์๋ฅผ ๋ฐ๋ฅด์ง ๋ชปํ๊ฑฐ๋, ์ง๋์น๊ฒ ๊ธธ๊ณ ์์ธํ ํ ์คํธ๋ฅผ ์์ฑํ๊ฑฐ๋, Tagalog ๋๋ Cebuano ๋์ ๋ค๋ฅธ ์ธ์ด๋ฅผ Hallucinate ํ๋ ๊ฒฝ์ฐ๋ฅผ ํฌํจํฉ๋๋ค.
ํ๋ฆฌํ์ ์ธํฐ๋ท ์ธํ๋ผ์ ํ๊ท ์๋์ด ์ ํ์ ์ ๋๋ค [3]. ๋ฐ๋ผ์ ๋น์ฉ๊ณผ ์ปดํจํ ํจ์จ์ ์ธ LLM ์ด ํ์ํฉ๋๋ค. FilBench ๋ฅผ ํตํด ์ฐ๋ฆฌ๋ ํจ์จ์ฑ์ Pareto Frontier ์ ์๋ LLM ์ ์๋ณํ ์ ์์์ต๋๋ค.
์ผ๋ฐ์ ์ผ๋ก, ์คํ_WEIGHT LLM (HuggingFace ์์ ์์ ๋กญ๊ฒ ๋ค์ด๋ก๋ ๊ฐ๋ฅํ ๋ชจ๋ธ) ์ ์ฑ๋ฅ์ ํฌ์ํ์ง ์์ผ๋ฉด์ ์์ ์ ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ์ ๋ ดํฉ๋๋ค. ํ๋ฆฌํ์ด ์ธ์ด ์์ ์ ๋ํ GPT-4o ์ ๋์์ ์ํ์ ๋ค๋ฉด Llama 4 Maverick ์ ์๋ํด ๋ณด์ธ์!
์ฐ๋ฆฌ๋ ์ด ์ ๋ณด๋ฅผ FilBench ๋ฆฌ๋๋ณด๋ HuggingFace ๊ณต๊ฐ์์ ์ ๊ณตํฉ๋๋ค.
FilBench ๊ฐ ํ๋ฆฌํ ์ธ์ด์ LLM Capability ์ ๋ํ ๋ ๊น์ ํต์ฐฐ๋ ฅ์ ์ ๊ณตํ๊ณ , ํ๋ฆฌํ NLP ์ฐ๊ตฌ ๋ฐ ๊ฐ๋ฐ์ ์ํ ์ด๋งค์ ์ญํ ์ ํ ์ ์๊ธฐ๋ฅผ ๋ฐ๋๋๋ค. FilBench ํ๊ฐ ์ธํธ๋ Hugging Face ์ lighteval ์ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋์ด, LLM ๊ฐ๋ฐ์๊ฐ ๋ฒค์น๋งํฌ์์ ๋ชจ๋ธ์ ์ฝ๊ฒ ํ๊ฐํ ์ ์์ต๋๋ค. ์์ธํ ์ ๋ณด๋ ์๋ ๋งํฌ๋ฅผ ๋ฐฉ๋ฌธํ์ธ์:
- ๐ Paper: https://arxiv.org/abs/2508.03523
- ๐ฅ๏ธ GitHub: https://github.com/filbench/filbench-eval
์ ์๋ค์ Cohere Labs ๊ฐ Aya ๋ชจ๋ธ ์๋ฆฌ์ฆ๋ฅผ ์คํํ๊ธฐ ์ํด Cohere Research Grant ๋ฅผ ํตํด ํฌ๋ ๋ง์ ์ ๊ณตํด ์ฃผ์ ์ , ๊ทธ๋ฆฌ๊ณ Together AI ๊ฐ ์ฌ๋ฌ ์คํ ๋ชจ๋ธ์ ์คํํ๊ธฐ ์ํด ์ถ๊ฐ ์ปดํจํ ํฌ๋ ๋ง์ ์ ๊ณตํด ์ฃผ์ ์ ์ ๊ฐ์ฌ๋๋ฆฝ๋๋ค. ๋ํ ์ด ๋ธ๋ก๊ทธ ํฌ์คํธ๋ฅผ ๋ฐํํ๋ ๋ฐ ๋์์ ์ค Hugging Face ํ, ํนํ OpenEvals ํ (Clรฉmentine Fourrier ์ Nathan Habib) ๊ณผ Daniel van Strien ์ ์ธ์ ํฉ๋๋ค.
FilBench ์์ ํ๊ฐํ์ ๋ค๋ฉด, ์ ์๋ค์ ์์ ์ ์ธ์ฉํด ์ฃผ์ธ์:
@article{filbench,
title={Fil{B}ench: {C}an {LLM}s {U}nderstand and {G}enerate {F}ilipino?},
author={Miranda, Lester James V and Aco, Elyanah and Manuel, Conner and Cruz, Jan Christian Blaise and Imperial, Joseph Marvin},
...
์ด ๋ฒ์ญ๋ณธ์ ์๋ฌธ์ ์ ๋ณด๋์ 100% ๋ณด์กดํ๋ฉฐ, ์ ๋ฌธ์ฉ์ด๋ ์๋ฌธ ๋ณ๊ธฐํ๊ณ ์์ต๋๋ค. ์๋ฌธ ๊ตฌ์กฐ๋ฅผ ๊ทธ๋๋ก ์ ์งํ์ต๋๋ค.
AI ์๋ ์์ฑ ์ฝํ ์ธ
๋ณธ ์ฝํ ์ธ ๋ Hugging Face Blog์ ์๋ฌธ์ AI๊ฐ ์๋์ผ๋ก ์์ฝยท๋ฒ์ญยท๋ถ์ํ ๊ฒ์ ๋๋ค. ์ ์ ์๊ถ์ ์์ ์์์๊ฒ ์์ผ๋ฉฐ, ์ ํํ ๋ด์ฉ์ ๋ฐ๋์ ์๋ฌธ์ ํ์ธํด ์ฃผ์ธ์.
์๋ฌธ ๋ฐ๋ก๊ฐ๊ธฐ