AMÁLIA와 유럽 포르투갈어 LLM의 미래
요약
포르투갈 정부는 유럽 포르투갈어(European Portuguese) 특화 대규모 언어 모델(LLM)인 AMÁLIA 프로젝트에 550만 유로를 투자했습니다. 이 모델은 여러 대학 및 연구소의 협업으로 개발되었으며, EuroLLM을 기반으로 지속 학습되고 유럽 포르투갈어 데이터 비중을 높이는 방식으로 구축되었습니다. AMÁLIA는 기존 포르투갈어 벤치마크에서 높은 성능을 보이지만, 필자는 모델 가중치나 데이터셋 등 핵심 자원의 공개 여부와 최적화 방향에 대해 의문을 제기하며 학계의 투명한 검증과 논의가 필요함을 강조합니다.
핵심 포인트
- AMÁLIA는 유럽 포르투갈어 특화 LLM으로, 포르투갈 정부의 대규모 자금 지원을 받았습니다.
- AMÁLIA는 기존 EuroLLM을 기반으로 지속 학습되었으며, 데이터 비중 조절에 초점을 맞췄습니다.
- 모델 성능 측정은 네 가지 새로운 벤치마크를 통해 이루어졌으나, 필자는 모델이 포르투갈 자체의 지식을 얼마나 잘 반영하는지 의문을 제기합니다.
- 완전한 오픈 소스 표준을 제시하는 Olmo와 비교했을 때, AMÁLIA는 가중치나 데이터셋 등 핵심 자원의 공개 측면에서 투명성이 부족합니다.
AMÁLIA와 유럽 포르투갈어 LLM의 미래
2024년 12월, 포르투갈 정부는 유럽 포르투갈어(European Portuguese)를 위한 대규모 LLM(Large Language Model)에 550만 유로를 투자하는 AMÁLIA 프로젝트를 발표했습니다.
며칠 전, 다양한 포르투갈어 NLP(Natural Language Processing) 노력들을 개괄하는 작업을 하던 중, 저는 기술 보고서(technical report)를 우연히 발견했습니다! 제 눈을 믿을 수 없었습니다. 이야깃거리가 아주 많겠군요! 바로 본론으로 들어가 봅시다!
사실, 시작하기 전에 짧은 면책 조항을 말씀드립니다. AMÁLIA는 매우 인상적인 작업물입니다. 그리고 연구진들은 매우 자랑스러워해야 마땅합니다. 하지만 국가의 투자가 이토록 막대할 때는 국가 전체가 그 작업의 수혜자가 되므로, 몇 가지 어려운 질문을 던지는 것이 공정하다고 생각합니다. 만약 이 프로젝트에 참여하셨고 이 글을 읽고 계신다면: 여러분의 노고에 감사드립니다!
자, 이제 시작해 봅시다.
AMÁLIA 요약
AMÁLIA는 "유럽 포르투갈어를 위한 완전한 오픈 소스 거대 언어 모델 (LLM)"입니다. 목표는 간단합니다. 유럽 포르투갈어를 일등 시민(first-class citizen)으로 대우하는 LLM을 만드는 것입니다. 예를 들어 이탈리아는 Minerva를 통해 유사한 일을 수행했습니다. AMÁLIA는 여러 최상위 포르투갈 대학교 및 연구소(NOVA, IST, IT, FCT) 간의 협업 결과물입니다.
제가 예상했던 것과는 달리, AMÁLIA는 처음부터(from scratch) 학습된 것이 아닙니다. 이는 EuroLLM의 사전 학습(pre-training) 단계를 *지속(continuation)*한 것입니다. EuroLLM은 (많은 포르투갈 인력이 투입된!) 이전의 노력이었습니다. 제가 이해하기로, 아키텍처(architecture)는 EuroLLM과 동일하며, 컨텍스트 길이(context length)와 RoPE 스케일링(RoPE scaling)에 약간의 수정이 가해졌습니다.
그렇다면 AMÁLIA는 어떻게 포르투갈어에 집중할까요? 한 단어로 요약하자면: **데이터(Data)**입니다. 모든 서로 다른 학습 단계에 걸쳐 그들은 모델이 학습하는 유럽 포르투갈어 데이터의 비중을 높이려고 시도했습니다. 사전 학습(pre-training) 단계에서는 Arquivo.pt 데이터를 사용했고, 지도 미세 조정(SFT, Supervised Fine Tuning) 단계에서는 포르투갈어 데이터를 합성(synthetically) 생성했으며, 선호도 학습(preference training) 단계에서는 SFT 단계의 데이터 중 일부를 하위 샘플링(sub-sampled)했습니다.
훈련(Training)도 흥미롭지만, 훈련된 결과물이 정말 좋은지 측정하는 것은 훨씬 더 흥미로운 일입니다. 그리고 이번 사례의 경우, 이는 특히 도전적인 과제가 될 수 있습니다. 팀은 유럽 포르투갈어(European Portuguese)에 특화된 네 가지 새로운 벤치마크(benchmarks)를 만들었습니다. 이 중 가장 눈에 띄는 것은 ALBA입니다.
정말로 오픈 소스(open source)인가?
완전한 오픈 모델(open models)의 표준은 Olmo입니다. Olmo가 벤치마크를 선도하는 것은 아닙니다. 그것이 핵심이 아닙니다. Olmo의 핵심은 극도로 개방적이라는 점입니다. 그들의 기술 보고서(technical report)를 살펴보십시오. 가중치(Weights)? 공개되어 있습니다. 데이터(Data)? 공개되어 있습니다. 코드(Code)? 공개되어 있습니다. 훈련 로그(Training logs)? 공개되어 있습니다. 모든 것이 공개적으로 접근 가능합니다. 이는 Olmo를 놀라운 자원으로 만듭니다.
이 글을 쓰는 현재, AMÁLIA는 공개된 것이 거의 없습니다. 모델 가중치, 데이터, 훈련 로그 또는 새로운 벤치마크가 어디에도 나열되어 있지 않았습니다. Arquivo.pt 처리 스크립트는 공개되어 있지만, 그 결과물인 데이터셋 자체는 어디에서도 찾을 수 없습니다. 현재로서는 몇 개의 GitHub 저장소(repos)만 있을 뿐입니다. 많은
SFT (Supervised Fine-Tuning) 측면에서는 그 비율이 더 높습니다. 약 17-18% 정도입니다. 하지만 그것으로 충분할까요? 투명하게 말씀드리자면, 이 모델에 유럽 포르투갈어 (European Portuguese)가 총 얼마나 포함되어 있는지에 대해 저는 완전히 명확한 그림을 가지고 있지 않습니다. 그리고 저는 그것을 알고 싶습니다.
인상적이게도, AMÁLIA는 대부분의 포르투갈어 벤치마크 (benchmarks)에서 Qwen 3-8B와 같은 SOTA (State-of-the-Art) 모델들을 능가합니다 (큰 승리입니다!). 하지만 예를 들어 ALBA에서는 여전히 Qwen 3-8B가 우리를 앞섭니다. 왜일까요? 그들이 포르투갈어 특화 학습 (Portuguese specific training)을 수행했기 때문일까요? 그럴 가능성은 낮습니다. 이는 저로 하여금 다음과 같은 의문을 갖게 합니다: 포르투갈어 추가 사전 학습 (pre-training) 데이터를 통해 우리가 얼마나 더 많은 이득을 얻을 수 있을까요?
저는 추측할 수밖에 없습니다. 우리는 과연 올바른 것을 위해 최적화 (optimizing)하고 있는 것일까요?
우리는 무엇을 위해 최적화해야 하는가?
AMÁLIA 팀은 유럽 포르투갈어를 위한 네 가지 새로운 벤치마크를 만들었습니다. 이들은 많은 영역을 다룹니다. 문법 (grammar), 구문 (syntax), 일반 상식 (general knowledge), 그리고 (중요하게도!) 브라질 포르투갈어 (Brazilian Portuguese)에 대해 상당한 편향 (bias)을 가지고 있는지에 집중합니다.
하지만 팀이 놓친 차원이 있다고 생각합니다: 우리는 실제로 모델이 포르투갈에 대해 얼마나 알고 있는지를 측정하고 있는가?
이는 더 작지만, 포르투갈에 대해 훨씬 더 많은 내재적 (intrinsic) 지식을 가진 모델임을 보여줄 수 있는 좋은 기회입니다. 유사한 (또는 심지어 더 큰) 모델들과 비교할 때조차 말입니다. 저는 어떤 벤치마크도 이 차원을 포착하고 있다고 생각하지 않습니다. 포르투갈어 시험들이 도움이 되긴 하지만, 문제를 완전히 해결하지는 못합니다. 저는 다음과 같은 생각을 합니다: "Aveiro에서 제공되는 가장 유명한 디저트는 무엇인가?", "1978년에서 1985년 사이 포르투갈의 대통령은 누구였는가?".
하지만 저는 또한 이 문제를 다루기에 가장 좋은 곳은 사전 학습 (pre-training) 단계라고 생각합니다. 이를 위해서는 훨씬 더 많은 포르투갈어 데이터가 필요할 것입니다. 그리고 팀도 그 점을 인정하고 있습니다.
마치며
무엇보다도, 저는 이 글을 쓰는 것을 망설였습니다. 저는 누군가의 작업을 비판하는 것을 좋아하지 않으며, 특히 인터넷상에서는 더욱 그렇습니다. 저는 포르투갈이 여기에 투자했다는 사실이 기쁩니다. 우리는 믿을 수 없을 정도로 재능 있는 팀을 보유하고 있으며, 그들은 찬사를 받을 자격이 있습니다.
둘째 - 이토록 작은 국가와 "언어"를 위해 대규모 언어 모델 (Large Language Model, LLM)을 만드는 것은 매우 도전적인 일입니다. 데이터는 한정되어 있지만, 분명 존재합니다. 우리는 단지 그 데이터를 어떻게 찾아낼지에 대해 창의적일 필요가 있습니다.
셋째 - 이것은 흥미로운 방향을 향한 좋은 첫걸음입니다. 유럽 포르투갈어 LLM의 미래는 밝습니다! 우리는 우리의 정신, 가중치 (weights), 데이터, 그리고 평가 (evals)를 그저 **개방 (open)**해 두기만 하면 됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기