노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습

노르웨이인으로서 국립도서관을 거의 매일 텍스트 검색에 사용함
방대한 텍스트를 검색하는 사용자 인터페이스와 기능이 정말 최고 수준임

정말 훌륭함. 다만 접근 가능한 콘텐츠에 제한이 좀 더 적었으면 좋겠음
상당수는 노르웨이 IP에서만 접근 가능해서, 영국에 살지만 노르웨이인인 내가 VPN을 유지하는 주요 이유 중 하나임. 또 다른 일부는 도서관이나 연구기관 IP에서만 접근 가능하지만, 그래도 일반 공개된 자료도 엄청나게 많음

통합 검색 엔진이 없어서 매우 답답함. 왜 TV 자막 안에서는 검색할 수 없는지 모르겠음

Altavista 시절부터 모든 검색 엔진에 있던 기본적인 어간 처리와 철자 유연성에 얼마나 익숙해져 있었는지 깨닫게 됨

이 말이 얼마나 사실인지 궁금함: “자국어를 가진 나라가 그 언어로 학습된 주권형 LLM을 갖고 있지 않으면 불리하다. 전 세계 자료로 학습된 영어권 LLM은 현지어로 서술된 그 나라의 역사, 뉴스, 문화를 알지 못하기 때문이다”
큰 플레이어들은 언어나 품질과 관계없이 접근 가능한 거의 모든 자료를 이미 학습한다고 생각했기 때문에, 이 견해는 범용 LLM 초기 시절에 형성된 생각처럼 들림

LLM이 노르웨이어 지식을 갖게 하고 싶다면, 가장 obvious한 방법은 좋은 학습 데이터셋을 만들어 널리 공개하는 것 아닌가 싶음
자체 모델 학습에 큰 비용을 들일 이유가 뭔지 모르겠고, 특히 최첨단 모델보다 열등할 가능성이 크다면 더 그렇다

외국 LLM들은 아마 노르웨이 국립도서관 자료로 학습되지 않았을 것임
계보학 때문에 일반 키워드 검색으로 그 안에서 자료를 자주 찾는데, 검색 엔진도 언어 모델도 모르는 것들이 나옴
물론 관심 있는 정보는 보통 AI가 긁어갈 수 있는 어딘가에 올려두지만, 그 안의 흥미로운 자료를 전부 꺼내려면 정말 오래 걸릴 것임

내 판단으로는 거의 사실이 아님. 노르웨이어는 잘 못하지만 스웨덴어는 할 줄 알고, 두 언어가 매우 비슷해서 노르웨이어도 대체로 이해함
내가 스웨덴어로 말해본 모든 모델은 완벽하게 처리했음. 노르웨이어도 이미 마찬가지일 가능성이 크다고 봄

현재 최고 모델들은 주요 언어와 문화에는 꽤 유창하므로, 적어도 “모든”이라는 한정은 맞지 않음
성능은 거의 영향이 없거나 때로는 더 나을 수도 있음. 다만 영어식 패턴이 다른 언어의 원어민식 패턴에 미묘하게 새어 들어갈 수 있음
저자원 언어에서는 완전히 다른 문제지만, 이를 개선하려면 새 모델보다 더 많은 데이터가 필요함

“Olivia 시스템은 HPE Cray Supercomputing EX 시스템으로, 448개 GPU와 64,512개 CPU 코어를 갖췄다”
이 정도 빈약한 하드웨어로 오픈소스 모델 위에 LoRA를 얹는 대신 주권형 LLM을 학습하겠다는 건 큰 실수이자 위험 신호처럼 보임
완전한 LLM을 학습할 자원이 있을 리 없으니, 그걸 목표라고 주장하는 건 이 LLM을 실제로 유용하게 만들 생각이 없다는 뜻처럼 느껴짐. 그렇다면 누구 돈을 왜 낭비하는 건지 묻게 됨

외부 사람에게는 유용하지 않을 수 있지만, 목표 중 하나가 조직 학습일 가능성은 있음
즉 LLM을 만드는 지식을 조직 안에 내재화하는 것임
명목상 국립도서관이 주체지만, 기사에 따르면 노르웨이어 자료를 이 목적에 합법적으로 소유하고 사용할 수 있어서 선택된 듯함. 대학 같은 관련 기관 연구자들도 과정에 참여할 것 같음

이전에 개념증명용 미세조정 모델을 성공적으로 만든 적이 있으니, 다음 단계가 완전한 LLM 학습인 셈임
다만 가치 있는 무언가를 목표로 한다고 보지는 않음. 그 미세조정 모델들은 매우 망가져 있었고, 방법론을 갖추는 데 더 가까운 듯함. 엄청 유용하다고 확신하진 않지만 연구비로 누가 무엇을 할지 내가 정할 일은 아님
내가 써본 한 미세조정 모델은 채팅에서 감정을 표현하는 인간을 자주 조롱했음
다른 미세조정 모델은 내가 “hei”라고만 써도, 의사라고 환각하며 내 아기가 끔찍한 병에 걸렸다고 매번 말했음. 아마 평범하고 중립적인 시스템 프롬프트가 그 행동을 유발했을 가능성이 큼
Olivia는 용도에 비해 충분히 큰 편이라고 봄. 지금은 최신 흐름을 따라가되 하드웨어에 너무 많은 돈을 낭비하지 않는 편이 낫다고 생각함

다국어·국제화 언어 모델은 최전선 연구소들이 많은 자원을 집중하는 분야가 아니며, 특히 노르웨이어는 더 그렇지 않나 싶음
노르웨이어 말뭉치는 아주 큰 클러스터가 필요하지 않을 수도 있고, 필요하더라도 도서관이 할 수 있는 최선일 것임. 노르웨이어 모델에 투자되는 것 중에서는 확실히 가장 큰 축일 가능성이 큼
최고 수준 모델들은 국립도서관이 가진 콘텐츠 품질에 접근하지 못할 수 있음. 기사도 신문사와의 라이선스를 언급하고, 도서관 자체 아카이브도 있음
영어와 노르웨이어가 가까운 어족이 아니므로 LoRA가 최선의 접근이 아닐 수도 있음
대상 언어의 문법·어휘가 영어에서 얼마나 떨어져 있느냐에 따라 LoRA 기반 현지화가 얼마나 잘 되는지에 대한 공개 연구가 있는지 궁금함
이런 프로젝트는 보통 목표가 하나가 아니고, 최첨단 모델만 만드는 게 아니라 대학이 위성을 쏘는 것처럼 지역 기반 인재를 만들고 훈련하는 목적도 있음

이 정도 자원이면 Olmo 3 레시피 같은 것을 바탕으로, 자체 데이터를 우선하는 혼합 데이터와 자체 작업용 후속 학습을 적용하기에는 충분함
자체 임베딩 모델을 만들고 도서관 전체를 색인한 뒤, 역사·문화·법률·전략 질문에 자국 관점으로 답하면서 그 데이터를 조회하도록 모델을 학습한다면 꽤 흥미롭고 유용할 가능성이 큼
React 코드를 뽑아내는 데서 Anthropic을 이기지는 못하겠지만, 굳이 그걸 복제할 이유도 없음

실제로 가장 큰 문제는 사용 가능한 학습 데이터임
이미 100억 매개변수 미만의 여러 모델로 미세조정과 처음부터 학습을 모두 실험했고, 마지막으로 확인했을 때는 처음부터 학습한 쪽이 언어를 더 잘 포착했음

노르웨이가 대신, 혹은 병행해서 학습 데이터셋을 만들고 모든 모델 제작자에게 무료로 공유하는 편이 낫지 않을까 싶음
최전선 모델들이 노르웨이어와 그 문화를 알게 만드는 것이 여기서 추구하는 목표에 더 좋은, 혹은 추가적인 방법처럼 보임

최전선 모델들은 노르웨이어를 이미 잘 알고 있음. 노르웨이어 방언에도 적응하고, 옛 노르웨이어도 꽤 그럴듯하게 흉내 냄
예를 들어 내가 읽어본 1911년 소설 “De knyttede næver”를 Claude에게 1911년 무렵 노르웨이어 표기법으로 설명하게 했는데 잘했음
부족한 것은 노르웨이 문학·문화·역사에 대한 이해임. “De knyttede næver”는 출간 당시 베스트셀러급 노르웨이 소설 중 하나였는데, Claude는 이를 찾아본 뒤에야 뭔가를 내놓을 수 있었음. ChatGPT는 더 잘했고, 특히 사고 모드에서는 자세한 요약을 줌
오늘날 널리 알려진 작품은 아니지만, 작가는 수십 년간 저명한 신문 기자였고, 이 연작은 주인공 이름을 예명으로 딴 노르웨이 가수가 있을 정도로 알려져 있음. 작가의 정치관과 그것이 소설에 미친 영향 때문에 수십 년간 노르웨이 신문과 책에서 다뤄지기도 했으니, 꽤 합리적인 테스트이며 상당한 지식 공백을 드러낸다고 느낌
국립도서관 데이터셋을 더 접근 가능하게 만드는 편이 낫다는 데는 동의함. 다만 여기서 큰 추가 요소는 아카이브에 묶여 있고 사용 제한이 있는 저작권 자료로 학습할 수 있는 계약을 맺었다는 점으로 보임
그래도 소장 자료 중 저작권이 만료된 데이터만 공개해도 훌륭한 출발점이 될 것임

왜 이 데이터를 전부, 모두의 데이터를 훔쳐 자기 이익을 챙기는 탐욕스러운 미국 기업들과 공유해야 하는지 모르겠음
국가 기관과의 법적 합의를 유지하고 자기 나라에 실제로 유용한 무언가를 개발하는 편이 훨씬 낫다

Marius Husnes가 “상업 LLM 제공업체가 현지 노르웨이어 LLM을 개발하지 않고 있으며, 자국어로 학습된 주권형 LLM이 없는 나라는 불리하다”고 한 부분을 보면, 그가 여기서 무슨 말을 하는지 제대로 알고 있다는 확신이 크지 않음

그는 맞는 말을 하고 있음. 다만 전적으로 학습 말뭉치만의 문제가 아니라, 대상 언어에 필요한 편향을 바탕으로 부분 문자열을 더 효율적으로 토큰화하는 토크나이저의 문제이기도 함
영어 지향 LLM이 영어에서 더 강한 이유는 토큰 공간이 영어에 더 간결하게 배정되기 때문임. Anthropic API를 호출하는 온라인 토크나이저에 흔한 영어 단어와 노르웨이어 단어를 넣어보면, 영어는 보통 토큰 하나 이하인데 노르웨이어는 2~4토큰, 때로는 그 이상이 되는 경우가 많음. 태국어 같은 언어는 엄청 불리함
말뭉치 선택도 목표 언어 쪽으로 크게 기울어지는 경우가 많음. 그 언어의 저작물을 확보하는 데 더 많은 에너지가 들어가기 때문임
언어 간 의미적으로 비슷한 임베딩의 상호 영향 때문에 벡터 공간에도 문화적 기준선과 다른 의미 편향이 생김. 마지막으로 미세조정은 LLM의 문화적 표현에 큰 영향을 줌. 이 효과들은 사소하지 않음
사라져가는 언어와 교차문화 모델을 활용한 언어 모델을 만들려는 노력이 많지만, 문해 기반이 탄탄한 언어라면 자기 언어와 문화에 특화된 유산형 LLM을 만들 충분한 이유가 있음. OpenAI나 Anthropic이 선택의 순간에 목표 고객보다 당신의 언어를 우선하리라 기대하는 건 터무니없음

ChatGPT와 대화할 때, 덴마크어로 대화하더라도 그것이 미국적이라는 점은 꽤 분명함
모국어, 문체, 태도가 미국적임
Netflix와 HBO가 지금은 스칸디나비아 TV 쇼를 만들더라도 거기에 의존할 수 없듯이, 이 영역에서도 우리 것을 직접 만들어야 함
시간이 지나면 이를 가능하게 하는 기술은 더 싸지고 쉽게 구할 수 있게 될 것임

폴란드에는 Bielik이라는 자체 LLM이 있음
폴란드어다운 표현을 보존하는 데 더 좋을 뿐 아니라, 정부 문서 작성도 더 잘함. 왜 더 낫냐면, 아레나 평가를 했고 통계적으로 더 좋았기 때문임

그가 틀렸다는 근거를 제시할 수 있는지 궁금함
단정은 했지만 근거는 없어 보임. 영어 LLM만 있는 것이 왜 불리하지 않은가?
현재 모델들로 노르웨이 역사와 문화의 뉘앙스를 얻을 수 있나?

가장 효율적인 방식은 아닐 수 있지만, 비라틴 문자 언어에는 처음부터 만드는 명백한 사용 사례가 여전히 있어 보임
sarvam.ai와 현지 언어 토큰화 개선 사례를 보면 됨 [1]. 모든 LLM이 코딩을 도와야 하는 것도 아니고, 이미 바벨피시가 되어야 하는 것도 아님
언어는 문화이므로 이들의 동기는 이해됨. 직접 할 여유가 있다는 건 좋은 일일 듯함
[1] https://www.sarvam.ai/blogs/sarvam-30b-105b

토큰화를 개선한다고 해서 꼭 처음부터 만들 필요는 없음
러시아 T-Bank는 기본 Qwen의 토크나이저를 바꿔 키릴 문자 토큰을 5배 더 넣고, 러시아어 말뭉치로 후속 학습을 해서 생성 속도를 1.5~3배 높일 수 있었음

이건 거대한 스토리지 배포임
LLM 학습의 입출력 요구, 특히 체크포인팅을 생각하면 전통적인 디스크 배열보다 이 규모의 NVMe 플래시로 가는 것이 타당함

“노르웨이는 영어권이 아닌 모든 나라가 마주할 문제를 푸는 작은 나라다. 자신의 언어, 문화, 역사를 반영하는 AI를 어떻게 만들 것인가? AI에는 단순한 제작자뿐 아니라 관리자가 필요하다”
안타깝지만 답은 대체로 “못 만든다”에 가깝다고 봄
이런 일에는 강한 정치적 의지가 필요한데, 적어도 내 주변에서는 이를 맞추는 것이 사실상 불가능해 보임
비용도 감당하기 어렵지만, 그보다도 이런 현지 대표성을 신경 쓰는 사람들은 외국 기업이 구현해도 완전히 괜찮아하거나, 애초에 AI 자체에 반대하는 쪽임. 원한다면 ChatGPT를 바스크어로도 쓸 수 있으니까

노르웨이의 경우 비용이 정말 감당 불가능한지는 논쟁 여지가 있음
작지만 극도로 부유한 나라이고, 현재 국부펀드 투자로 전 세계 상장기업의 1.5%에 해당하는 지분을 보유하고 있음

노르웨이가 학습용 큐레이션 데이터셋을 만들겠다는 목표로 미국 연구소들에 접근하면, 그들은 분명 학습 과정에 들어갈 수 있게 해줄 것임
그리고 그런 모델들은 국내에서 만들 수 있는 것보다 훨씬 뛰어날 가능성이 큼
물론 이 말을 보며 화면 너머로 몸서리치는 것도 느껴짐

노르웨이의 2페타바이트 Huawei 플래시 스토리지와 LLM 학습

요약

핵심 포인트

댓글