화웨이 2PB 스토리지로 뚫은 '소버린 AI' 데이터 병목

"No private company has this."

노르웨이 국립도서관(Nasjonlbiblioteket)의 IT 플랫폼 책임자 마리우스 후스네스(Marius Husnes)가 화웨이 ID 포럼 2026에서 던진 말이다. 저작권이 있는 신문 기사 데이터를 LLM 학습에 사용할 수 있도록 체결한 독점적 합의를 의미한다.

이 데이터 권력은 단순한 정보 수집을 넘어, 국가의 정체성을 담은 '소버린 AI'를 구축하려는 노르웨이의 전략적 포석이다. 상업용 LLM 제공업체들이 소외시킨 현지어 모델의 공백을 국가 기관이 직접 메우겠다는 계산이다. 핵심은 방대한 국가 기록물을 어떻게 효율적으로 AI 학습기에 밀어 넣느냐는 인프라의 문제로 귀결된다.

핵심 변화

노르웨이 국립도서관(Nasjonlbiblioteket)이 노르웨이어 전용 소버린 LLM(Large Language Model, 거대언어모델) 개발에 착수했다. 상용 LLM 제공업체들이 노르웨이어 모델 개발에 소홀한 지형이 형성됐다. 국가의 역사와 뉴스, 문화를 온전히 반영한 자체 모델의 필요성이 제기됐다. 노르웨이 문화부는 노르웨이 내 도서, 신문, 웹페이지 등 최대 규모의 디지털 컬렉션을 보유한 국립도서관에 이 과업을 맡겼다.

데이터 확보 전략이 핵심 포석이다. 국립도서관은 2005년부터 디지털화를 진행해 20 PB의 고유 데이터를 구축했다. 백업을 포함한 전체 데이터 규모는 60 PB에 달하며 3-2-1 형태로 저장됐다. 특히 신문사와의 협약을 통해 저작권이 있는 콘텐츠의 학습 권한을 확보했다. 이는 민간 기업이 가질 수 없는 독점적 데이터 경쟁력이다.

이번 사례는 비영어권 국가들이 직면한 소버린 AI 구축의 기술적, 문화적 선례가 된다. 노르웨이는 소규모 국가로서 모든 비영어권 국가가 겪을 문제를 먼저 해결하고 있다. 자국어와 역사, 문화를 AI에 투영하는 것은 전 세계 비영어권 국가의 공통 과제다. AI의 역할이 단순한 빌더(Builder)를 넘어 관리자(Custodian)로 확장되어야 함을 시사한다.

기존과의 차이

보존용 아카이브와 AI 파이프라인 간의 서로 다른 스토리지 요구사항을 해결하는 것이 이번 인프라 설계의 핵심 과제였다. 60 PB 규모의 보존 시스템은 내구성과 비용 최적화에 집중되어 있어 읽기 지연 시간이 높다는 특성을 가진다. 반면 AI 파이프라인은 고처리량과 저지연 병렬 IO(입출력) 능력이 필수적이다. PB급 데이터셋을 보존용 아카이브에서 AI 파이프라인으로 이동시키는 과정에서 발생하는 기술적 난제를 해결하는 것이 전체 시스템의 성패를 가르는 전략적 포석이 되었다.

AI 데이터 파이프라인 구축을 위해 2 PB 규모의 Huawei OceanStor Dorado(화웨이의 올플래시 스토리지) 플래시 스토리지를 도입했다. 데이터 수집부터 정제, 중복 제거, 정규화, 검증 및 준비 단계에 이르는 복잡한 전처리 공정에서 저지연 스토리지가 반드시 필요했기 때문이다. 이를 위해 Huawei OceanStor Dorado 올플래시 어레이를 전면에 배치해 데이터 흐름의 속도를 높였다. 해당 시스템은 Nvidia DGX H200 시스템 및 384코어 CPU 클러스터와 함께 구성되어 데이터 파이프라인의 처리 효율을 극대화했다.

실제 LLM(거대언어모델) 학습은 노르웨이 국가 슈퍼컴퓨터인 Sigma2 Olivia(시그마2 올리비아) 시스템에서 수행하는 이원화 구조를 통해 연산 지형을 설계했다. HPE Cray Supercomputing EX(에이치피이 크레이 슈퍼컴퓨팅 EX) 시스템 기반의 Olivia 시스템은 448개의 GPU와 64,512개의 CPU 코어를 동시에 운용하는 초고성능 연산 자원이다. 스토리지는 5.3 PB 규모의 Cray ClusterStor E1000(크레이 클러스터스토어 E1000) 시스템을 사용한다. 데이터 파이프라인을 통과해 정제된 데이터가 이 시스템으로 전달되어 최종 학습에 투입되는 구조다.

화웨이 2PB 스토리지로 뚫은 '소버린 AI' 데이터 병목

핵심 변화

기존과의 차이

관련 기사