Apertus, 주권 AI를 위한 오픈 파운데이션 모델

완전 공개 LLM으로는 Allen AI의 OLMo 3.1과 MBZUAI의 K2 Think V2도 있으며, 둘 다 전체 학습 파이프라인과 데이터셋을 공개했음
Nvidia Nemotron도 공개 학습 소스 모델이지만, 데이터셋 일부는 독점임
lambda의 댓글을 인용하면, Nemotron 모델은 대체로 Olmo와 K2 Think V2보다 강하고(Artificial Analysis 벤치마크 기준), 데이터셋도 많이 겹침. 여러 데이터셋이 같은 원천에서 필터링만 다르게 만들어졌고, Olmo와 K2 Think V2도 일부 Nemotron 데이터셋을 사용했음
Nemotron은 현대적이고 꽤 유능한 LLM이며, 122b 모델도 대부분의 벤치마크에서 Deepseek R1(671b 모델)보다 강하고, 최근에는 550b Ultra도 나왔음 https://news.ycombinator.com/item?id=48492439

Allen AI는 충분히 주목받지 못하고 있음. 생성 AI는 원래 이런 방식으로 만들어졌어야 했다고 봄
최전선 기업들이 이 접근을 택했다면 출발은 훨씬 느렸겠지만, 2035년에는 지금보다 훨씬 더 앞서 있었을 것 같음. 대신 지금은 사회 다수가 AI가 실패하길 바라는 상태가 됨

Nemotron을 다시 한 번 써볼까 싶음. 어제 OpenRouter에서 최신 모델을 써봤는데 별로였고, StepFun보다도 나빴음

아이디어는 마음에 들고, 미국 밖의 모두가 기술 주권을 고민해야 할 필요성도 더 커졌음. 미국이 데이터를 보관하기에 안전하지 않은 곳이 되었기 때문임
다만 Apertus는 위원회 속도로 움직이는 느낌이라 경쟁력 있는 모델을 내놓을 거라는 기대가 없음. 적어도 현재 모델들과 경쟁하기는 어려워 보이고, 1년 전 모델들과는 경쟁 가능할지도 모르지만 아직 그것도 못 한 것 같음

“미국이 데이터를 보관하기에 안전하지 않은 곳이 되었다”는 말에는 공감하지만, 다른 나라가 왜 더 나은 데이터 피난처가 되는지는 궁금함
개인적으로는 EU의 데이터 보호 접근이 마음에 들지만, 데이터를 “안전하게” 지켜줄 만한 다른 지역이나 보호 장치를 염두에 둔 건지 궁금함

Linux 비유는 여기에도 맞지 않는다고 봄. 이건 그보다 더 크고, 상업 AI 연구소와 그 사업 모델에 대한 직접적인 위협임
이 연구소들은 몇 년째 여러 기반 논문을 우려먹고 있고 끝이 가까워지고 있음
앞으로는 오픈소스, 공개 데이터, 공개 레시피 모델이 중심이 될 수 있고, 언젠가는 추론뿐 아니라 학습도 BitTorrent식으로 크라우드소싱될 수 있음
마지막으로 중국 모델(GLM, Deepseek, MiMax)도 정말 잘 작동하며, 그런 모델을 쓰는 사용자는 OpenAI/Anthropic/Gemini가 전혀 아쉽지 않다고 말할 것임. 그렇다면 이런 공개 모델이 있으면 중국 모델도 굳이 그리워하지 않게 된다는 충분한 근거가 됨

여러 언어에 집중한다고 주장하는 모델치고는 “X를 Y 언어로 어떻게 말하나”나 “Y 언어에서 동사 X를 어떻게 활용하나” 같은 단순한 질문에 꽤 불안정함
존재하지 않는 단어를 계속 환각하고, 정정해도 새로운 거짓말을 만들어냄

아마 각 단어 묶음이 어떤 언어를 가리키는지 모를 가능성이 큼
언어 라벨이 붙은 학습 데이터를 많이 넣었을 것 같지는 않음
“X를 Y 언어로 어떻게 말하나”는 X를 Y 언어로 말하는 것과는 다른 과제임

이들의 지시 모델은 작년 Llama3.1 미세조정처럼 보임. 새 모델에 진전이 있는지 궁금함
주권 AI에 대한 마지막 희망은 중국 공개 모델 쪽에 있음

Apretus 프로젝트에서 가장 영향력이 큰 산출물은 단연 사람들임. Dominique Paul(https://www.thisiscrispin.com/)의 기억에 남는 문장을 인용하면, 대부분이 놓치는 점은 이 팀이 다른 거의 모든 LLM 제공자처럼 네 번째로 같은 일을 하는 팀이 아니며, 자기 과거 경험에서 배울 수 있었던 팀도 아니라는 것임
이 팀이 한 번 더 모델 학습을 한다면 비용은 4분의 1로 줄이고 결과는 훨씬 좋아질 수 있을 거라고 봄

라이선스가 꽤 흥미로운데, 장기적으로 누가 이 방식을 따를지는 모르겠음
학습 데이터와 Apertus LLM은 식별 가능한 개인을 직접 또는 간접적으로 가리키는 정보(개인정보)를 포함하거나 생성할 수 있음. 사용자는 적용 가능한 데이터 보호법에 따라 독립적인 처리자로서 개인정보를 처리함
SNAI는 Apertus LLM 개발자로서 접수한 데이터 보호 삭제 요청을 반영한 해시값 파일을 정기적으로 다운로드 제공하고, 사용자는 이를 출력 필터로 적용할 수 있음. 모델 출력에 포함된 개인정보를 제거할 수 있게 해주며, 모델 출시 후 6개월마다 SNAI에서 이 출력 필터를 내려받아 적용할 것을 강력히 권고함

다음 조건이 사실인 한, 이 릴리스는 “닫힌 문 뒤에서” 학습된 대부분의 모델보다 과학 전반에 더 큰 기여가 됨
완전 공개 모델: 공개 가중치 + 공개 데이터 + 모든 데이터와 학습 레시피를 포함한 전체 학습 세부사항

fineweb을 사용하는데, 이는 Common Crawl에서 파생됐고, Common Crawl은 웹페이지를 무허가로 긁어온 것임

전 세계 국가들이 자금을 대는 주권 AI에 대해 커뮤니티가 어떻게 보는지 궁금함
왜 “주권”을 강조하는 걸까? 공개면 충분하지 않나?

Apertus, 주권 AI를 위한 오픈 파운데이션 모델

요약

핵심 포인트

댓글