
노르웨이의 2 페타바이트 Huawei 플래시 스토리지와 LLM 학습
요약
노르웨이 국립도서관이 주권적 LLM 개발을 위해 2 PB 규모의 Huawei OceanStor Dorado 플래시 스토리지를 도입했습니다. 방대한 디지털 문화유산 데이터를 효율적으로 처리하기 위해 저지연 스토리지와 Nvidia DGX H200 시스템을 결합한 데이터 파이프라인을 구축했습니다.
핵심 포인트
- 노르웨이 언어 특화 주권적 LLM 구축 추진
- 2 PB 규모의 Huawei 올플래시 스토리지 활용
- 데이터 정제 및 파이프라인 처리량 병목 현상 해결
- Nvidia DGX H200 기반의 고성능 연산 환경 구성
FLASH
노르웨이의 2 페타바이트 Huawei 플래시 스토리지와 LLM 학습
노르웨이 국립도서관(Norway’s National Library)은 노르웨이어를 이해하는 거대 언어 모델 (LLM)을 개발하고 있으며, AI 학습 데이터 파이프라인에 2 PB 규모의 Huawei OceanStor Dorado 플래시 스토리지를 사용하고 있습니다.

도서관(Nasjonlbiblioteket)의 IT 플랫폼 책임자인 Marius Husnes는 파리에서 열린 Huawei의 ID Forum 2026에서 이 프로젝트에 대해 논의하며, 어떤 상업적 LLM 제공업체도 현지(노르웨이) 언어 LLM을 개발하고 있지 않다고 말했습니다. 그는 고유한 언어를 가진 국가가 해당 언어로 학습된 주권적 LLM (Sovereign LLM)을 보유하지 못한다면 불이익을 받게 될 것이라고 주장했습니다. 전 세계적으로 학습된 영어 중심의 LLM은 현지 언어로 기술된 해당 국가의 역사, 뉴스 및 문화를 알지 못하기 때문입니다.
노르웨이 문화부는 국립도서관에 주권적 AI (LLM) 구축을 맡겼습니다. 도서관은 국가 내에서 노르웨이 서적, 신문, 웹 페이지 등을 포함한 단일 최대 규모의 디지털 컬렉션을 보유하고 있기 때문입니다. 많은 국립도서관과 마찬가지로, 이곳은 출판된 모든 도서와 방송된 콘텐츠의 사본을 받을 권리가 있습니다. 이 분야에서의 법적 납본(Legal deposit) 의무는 도서에 국한되지 않고, 노르웨이의 모든 문화유산을 수집하고 보존해야 하는 책무까지 확장됩니다.
노르웨이 신문사들과의 협약을 통해 저작권이 있는 콘텐츠로 LLM 학습을 진행할 수 있게 되었으며, Husnes는 "어떤 민간 기업도 이러한 권한을 가지고 있지 않다"라고 말했습니다.
또한 도서관은 2005년부터 컬렉션을 디지털화해 왔으며, 3-2-1 방식(3개의 복사본, 2가지 미디어 유형, 1개의 오프사이트 저장)으로 저장된 20 PB의 고유 데이터를 축적해 왔기에(전체적으로 약 60 PB 규모) 이 작업을 수행하기에 매우 유리한 위치에 있었습니다. 원문 텍스트, 음향, 동영상, 정지 이미지 및 웹 콘텐츠의 디지털화 과정에는 많은 OCR 스캐닝이 포함되었으며, 방대한 양의 메타데이터와 온라인 접속을 위한 API가 생성되었습니다.
데이터의 대부분은 보존 시스템인 디지털 디스크 및 테이프 아카이브에 저장되었습니다. Husnes의 과제는 이 데이터를 LLM (Large Language Model) 학습 시스템으로 옮기는 것이었습니다. 그는 병목 현상 (bottleneck)이 연산 능력이 아니라, 데이터 품질, 정제(cleaning) 및 파이프라인 처리량(throughput)이었다고 말했습니다. 여기에는 두 가지 주요 처리 단계가 있었습니다. 첫 번째는 Nvidia DGX H200 시스템, 384 코어 CPU 클러스터, 그리고 총 2 PB의 플래시 용량을 갖춘 여러 대의 Huawei OceanStor Dorado 올플래시 어레이 (all-flash arrays)를 사용하는 사내 연산 단계입니다. 이는 데이터 파이프라인과 학습 준비를 위한 저지연 (low-latency) 스토리지입니다.

파이프라인은 데이터 수집 (ingestion), 정제 (cleaning), 중복 제거 (deduplication), 형식 정규화 (format normalization), 검증 (validation) 및 준비 단계를 거칩니다. 데이터가 파이프라인을 통과하면 실제 학습 실행을 위해 노르웨이의 국가 슈퍼컴퓨터인 Sigma2 Olivia 시스템으로 전송됩니다. Olivia 시스템은 448개의 GPU와 64,512개의 CPU 코어를 갖춘 HPE Cray Supercomputing EX 시스템입니다. 이 시스템은 5.3 PB 규모의 Cray ClusterStor E1000 스토리지 시스템을 사용합니다.
한 가지 큰 문제 영역은 서로 다른 두 가지 스토리지 시스템의 요구 사항을 극복하는 것이었습니다. 60 PB 규모의 보존 시스템은 빠른 IO (Input/Output)가 아닌 내구성과 비용에 최적화되어 있으며, 드문 액세스를 위해 설계되었기 때문에 읽기 지연 시간 (read latency)이 높습니다. 반면 AI 파이프라인 스토리지는 높은 처리량 (high-throughput), 저지연 (low-latency), 병렬 데이터 IO를 위해 설계되었습니다. Husnes는 아카이브에서 AI 데이터 파이프라인 시스템으로, 그리고 그 시스템을 통과하여 PB(페타바이트) 규모의 데이터셋을 이동할 때 발생하는 문제에 대해 아무도 이야기하지 않는다는 것을 알게 되었다고 말했습니다. 그의 팀은 이를 어떻게 수행해야 하는지 스스로 찾아내야 했습니다.

LLM 학습은 현재 진행 중이며, 그는 그의 팀이 여전히 배우고 있는 내용에 대한 요약을 끝으로 강연을 마쳤습니다.
- 평가 (Evaluation) - 노르웨이의 주권적 LLM (Sovereign LLM)을 평가할 표준화된 평가 도구가 없습니다. 노르웨이어는 두 가지 문어체 형태, 다양한 방언, 그리고 역사적 변화를 가지고 있습니다. 그들은 현재 자체적인 평가 도구를 즉석에서 구축하고 있습니다.
- 거버넌스 (Governance) - 주권적 LLM에 대한 접근 권한을 누가 통제하는가? 무엇에 사용할 수 있을지를 누가 결정하는가? 이것들은 쉬운 답이 없는 제도적, 정치적 질문들입니다.
- 오케스트레이션 (Orchestration) - 세 가지 시스템, 즉 보존 아카이브 (Preservation archive) + 온프레미스 (On-prem) AI 환경 + 국가 Sigma2 슈퍼컴퓨터가 매끄럽게 함께 작동하도록 만드는 것은 현재 진행 중인 프로젝트입니다.
여기서 우리가 얻을 수 있는 시사점은 첫째, Huawei 스토리지가 유럽 시장에서 진지하고 중요한 역할을 수행하고 있다는 점이며, 둘째, 주권적이고 현지 언어 기반의 LLM을 개발하려는 국가라면 Husnes와 상담하여 무엇이 수반되는지 파악하는 것이 좋다는 점입니다.
Husnes가 언급했듯이, 노르웨이는 영어를 사용하지 않는 모든 국가가 직면하게 될 문제, 즉 어떻게 자신의 언어와 문화, 역사를 반영하는 AI를 구축할 것인가라는 문제를 해결하고 있는 작은 국가입니다. AI에는 단순히 구축하는 사람(Builder)뿐만 아니라 관리자(Custodian)가 필요합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기