영국, NVIDIA와 '소버린 AI' 가속... GH200 5,400개 기반 인프라 구축

GH200 5,400개와 65MW 규모의 인프라 확장

글로벌 빅테크의 클라우드 API에 의존하는 실무자는 매달 청구되는 비용과 데이터 주권 문제에 직면한다. 영국은 이 의존성을 끊기 위해 5,400개의 NVIDIA GH200 Grace Hopper Superchip(CPU와 GPU가 통합된 고성능 칩)을 탑재한 Isambard-AI를 구축했다. 이 시스템은 제로 카본 전력으로 운용되며 영국 내에서 가장 강력한 컴퓨팅 자원으로 기능한다. 단순한 서버 증설이 아니라 국가 단위의 AI 연구를 뒷받침하는 핵심 엔진을 물리적으로 소유하겠다는 전략이다. 하드웨어 제어권을 직접 확보함으로써 데이터 유출 리스크를 원천적으로 차단하고 모델 학습 효율을 극대화하는 기반을 마련했다.

인프라 확장 속도는 구체적인 전력량과 사업자 수로 증명된다. Nebius(AI 클라우드 서비스 기업)는 2027년까지 총 65MW 규모의 NVIDIA AI 인프라 3개소를 추가로 배치할 계획을 확정했다. 지난 1년간 영국 내에 AI 인프라 배치를 계획한 클라우드 제공업체 수는 2배로 증가하며 시장 진입 속도가 가팔라졌다. BT(영국 텔레콤)와 Nscale은 3개의 BT 사이트에 소버린 AI 데이터 센터를 구축한다고 발표했다. NVIDIA의 AI 인프라와 Nscale의 풀스택, 그리고 BT의 전국적 네트워크 백본을 결합해 데이터 이동 경로를 최적화한다. 이는 외부 클라우드 거점을 거치지 않고 국내 인프라 내에서 모든 연산과 데이터 처리를 완결 짓는 구조를 지향한다.

자본 투입 규모는 생태계의 체급을 결정하는 결정적 변수다. NVIDIA는 영국 스타트업 생태계에 20억 파운드(£2 billion)를 투자하며 런던, 옥스퍼드, 캠브리지, 맨체스터 등 주요 기술 거점을 직접 지원한다. 단순한 자금 지원을 넘어 고성능 컴퓨팅 자원에 대한 접근성을 높여 스타트업들이 거대 모델을 직접 학습시킬 수 있는 환경을 조성한다. 영국 정부의 소버린 AI 펀드는 이렇게 확보된 물리적 자원을 국내 기업에 할당해 기술적 자립도를 높이는 데 집중한다. AI 테이커에서 AI 메이커로 전환한다는 선언은 결국 65MW의 전력량과 수천 개의 GPU라는 물리적 실체로 구현된다. 컴퓨팅 자원의 국산화는 외부 플랫폼에 지불하던 막대한 추론 및 학습 비용을 내부 자산 가치로 전환하는 실무적 선택이다.

MoE LLM부터 생물학 파운데이션 모델까지의 구현 방식

선언에서 실제 구현까지 걸린 시간은 1년 남짓이다. 코사인(Cosine)은 금융 서비스와 국가 안보 등 규제가 엄격한 산업을 타겟으로 한 엔드 투 엔드(End-to-End) 소버린 AI 코딩 플랫폼을 구축하고 있다. 이들은 텍스트와 이미지를 넘어선 복합 데이터 타입을 네이티브하게 처리하기 위해 대규모 파라미터 기반의 MoE(Mixture-of-Experts, 입력값에 따라 필요한 전문가 네트워크만 선택적으로 활성화하는 구조) 멀티모달 에이전틱 LLM을 학습시킨다. 모든 파라미터를 사용하는 대신 특정 작업에 최적화된 경로만 활성화함으로써 추론 효율을 높이고, 에이전틱 워크플로우를 통해 복잡한 코딩 태스크를 자율적으로 수행하게 만든다. 고도로 규제된 환경에서 데이터 주권을 유지하며 전문성을 확보하려는 아키텍처 설계다.

커시브(Cursive)는 실시간 데이터로부터 지속적으로 학습하여 스스로 성능을 높이는 자가 개선 AI 시스템을 개발 중이다. 장기간 자율 작동을 가능하게 하려면 모델이 기억해야 할 정보의 양이 기하급수적으로 늘어나는데, 이를 해결하기 위해 소버린 AI 펀드(Sovereign AI Fund)의 자원을 투입하여 컨텍스트 윈도우를 대폭 확장한 메모리 증강 아키텍처(Memory-augmented architectures, 외부 메모리 저장소를 통해 정보의 저장과 인출 능력을 보강한 구조)를 도입했다. 또한 대규모 분산 학습의 병목 현상을 해결하고 학습 속도를 높이기 위해 NVIDIA Megatron-LM 프레임워크를 적용했다. 이는 단순한 모델 크기 확장이 아니라, 메모리 관리 방식의 변경을 통해 AI의 장기 기억 능력을 구현하려는 시도다.

프리마 멘테(Prima Mente)는 알츠하이머와 파킨슨병, 루게릭병(ALS)의 새로운 바이오마커와 약물 타겟을 식별하는 생물학 파운데이션 모델 Pleiades 2를 개발하고 있다. 이 모델은 서로 다른 성격의 다섯 가지 생물학적 데이터 모달리티를 하나의 아키텍처로 결합해 세포 내 생물학적 변화와 질병 아형을 정밀하게 분석한다. 특히 알츠하이머가 약 25개의 서로 다른 질병 하위 그룹으로 나뉜다는 연구 결과에 기반해, 이를 정교하게 분류하는 것을 목표로 한다. 대규모 유전체 데이터의 효율적인 전처리를 위해 NVIDIA Parabricks를 활용하며, 모델의 연산 최적화를 위해 Transformer Engine를 도입해 학습 효율을 극대화했다. 다중 모달리티 데이터를 통합 처리하는 파운데이션 모델을 통해 질병의 세부 그룹을 분류하고 정밀 의료의 근거를 마련하는 구조다.

추론 비용 95% 절감과 학습 속도 3배 향상의 수치

추론 비용이 계속해서 낮아지는 상황에서, 기업이 실제로 체감하는 비용 절감의 임계점은 어디까지일까. 추론 전용 랩인 Doubleword(더블워드, 영국 최초의 추론 전문 연구소)는 NVIDIA Nemotron 3 Super 120B 모델과 NVIDIA Dynamo(다이나모, NVIDIA의 추론 최적화 프레임워크)를 결합해 이 수치를 증명했다. Isambard-AI 인프라를 통해 구현한 결과, 모델 콜드 스타트(Cold Start, 모델 로딩 시간) 속도가 기존 대비 70배 향상되었다. 여기에 4배의 무손실 KV 캐시(Key-Value Cache, 이전 토큰의 연산 결과를 저장하는 메모리) 압축 기술을 적용했다. 모델을 메모리에 올리는 시간과 캐시 점유율을 동시에 해결한 이 수치는 특히 여러 단계의 추론을 반복하며 자율적으로 동작하는 에이전틱 워크로드의 실행 효율을 결정짓는 핵심 지표가 된다.

구체적인 비용 지표에서 Doubleword는 타 선도 추론 제공업체 대비 90~95% 낮은 비용을 구현했다. 일반적인 범용 클라우드 환경에서는 가상화 계층의 오버헤드와 공유 자원 할당 방식으로 인해 모델 로딩과 추론 과정에서 상당한 비용 누수가 발생하며, 이는 곧 토큰당 단가 상승으로 이어진다. 타 선도 제공업체가 제공하는 표준 API 기반의 추론 서비스는 범용성에 최적화되어 있어, 특정 모델에 최적화된 전용 스택의 효율을 따라가기 어렵다. 반면 전용 인프라와 최적화 프레임워크를 수직 통합하면 하드웨어 성능을 최대한으로 끌어내어 불필요한 연산 낭비를 제거하고 비용 구조를 바꿀 수 있다. 이는 단순한 서비스 단가 인하가 아니라, 인프라 구조의 최적화가 '달러당 IQ'라는 실무적 효율성으로 직결됨을 보여주는 결과다.

학습 단계의 효율성 역시 하드웨어 세대 교체를 통해 가속화되었다. Prima Mente(프리마 멘테, 생물학적 파운데이션 모델 개발사)는 NVIDIA Blackwell(블랙웰) GPU를 도입하여 모델 학습 속도를 약 3배 향상시켰다. 5가지 생물학적 데이터 모달리티를 결합하는 복잡한 학습 과정에서 Blackwell의 향상된 연산 성능과 메모리 효율이 기존 아키텍처의 병목 현상을 제거한 결과다. 기존 인프라에서 수주가 소요되던 학습 사이클이 3분의 1 수준으로 단축되면서, 모델 고도화를 위한 반복 실험의 빈도가 물리적으로 증가했다. 전용 인프라와 최신 GPU 아키텍처의 결합은 추론 비용의 극단적 절감과 학습 속도의 비약적 향상이라는 두 가지 실익을 동시에 달성하며 개발 주기를 단축한다.

20만 명의 개발자와 6G 테스트베드로 이어지는 생태계

최신 AI 논문을 읽고 코드를 복제해도 실제 대규모 클러스터에서 모델을 구동하는 단계에서 막히는 경우가 많다. 로컬 환경의 작은 데이터셋으로는 해결되지 않는 인프라 최적화의 벽과 복잡한 환경 설정의 번거로움이 실무자의 발목을 잡는다. NVIDIA Developer Program은 현재 영국 내 20만 명 이상의 개발자를 확보하며 이러한 기술적 진입 장벽을 낮추고 있다. 20만 명이라는 수치는 단순한 가입자 수가 아니라 영국 내에서 NVIDIA 스택을 즉시 활용할 수 있는 가용 인력의 규모를 의미한다. NVIDIA Inception(엔비디아 인셉션, AI 스타트업 지원 프로그램)의 영국 내 멤버십 역시 지난 1년간 50% 증가했다. 하드웨어라는 물리적 도구를 보급하는 단계를 넘어 이를 능숙하게 다룰 수 있는 인적 자원 풀을 국가 단위로 구축하여 AI 수용자에서 생산자로 전환하는 기반을 닦았다.

영국 4개 대학에는 6G 및 AI 기술 테스트베드가 구축되어 차세대 통신 표준과 AI의 결합을 시험하고 있다. NVIDIA DLI(Deep Learning Institute, 딥러닝 인스티튜트)는 30개 이상의 대학에 무선 연구 커뮤니티 과정을 제공하며 연구자들이 실제 인프라에서 모델을 최적화하는 방법을 익히게 한다. 단순한 범용 LLM 학습을 넘어 6G와 같은 초고속 통신 인프라와 결합된 특수 목적 AI의 실행 능력을 내재화하는 과정이다. 무선 통신 연구 커뮤니티의 전문성이 AI 인프라와 결합하면서 연구실 수준의 이론적 실험이 실제 통신망 테스트베드라는 실증 환경으로 연결되고 기술 상용화 속도가 빨라졌다.

잉글랜드 내 AI 수습 과정인 QA AI Apprenticeships에는 NVIDIA DLI 코스가 공식적으로 통합됐다. 이는 고등 교육 기관의 학위 과정에만 머물던 AI 전문 지식을 현장 실무 인력 양성 체계로 직접 이식한 조치다. 개발자 개별 역량이나 특정 기업의 내부 노하우에 의존하던 AI 구현 능력이 직업 훈련 시스템을 통해 표준화된 커리큘럼으로 제공된다. 인프라라는 물리적 자산이 교육이라는 소프트웨어 자산과 결합하면서 소버린 AI를 실제로 구동하고 유지보수할 수 있는 하부 구조가 완성된다. 전문 인력의 양적 팽창이 인프라 활용률의 상승으로 이어지는 실무 중심의 선순환 구조를 구축한 결과다.

한국형 소버린 AI 전략에 주는 실무적 시사점

소버린 AI를 구축하는 목적이 데이터 주권이나 국가적 자존심 같은 상징적 가치에 있다고 믿었다. 하지만 실무적 관점에서의 결론은 추론 단가라는 철저한 비용 경쟁력에 있다. Doubleword는 추론 레이어의 모든 단계를 최적화해 타 선도 제공업체 대비 비용을 90~95%까지 낮추는 성과를 냈다. 모델 콜드 스타트 속도를 70배 높이고 KV 캐시(Key-Value Cache, 모델이 이전 대화 내용을 기억하는 메모리 영역)를 4배 무손실 압축하며 토큰당 비용을 극단적으로 줄여 달러당 지능(IQ per dollar)을 극대화했다. 한국 기업들이 글로벌 빅테크 API에 의존하며 겪는 비용 상승 문제를 해결하려면, 단순한 모델 도입을 넘어 추론 스택 전체를 제어할 수 있는 국가 단위의 컴퓨팅 자원 확보가 선행되어야 한다.

Cosine은 금융 서비스와 국가 안보 등 규제 산업 전용의 소버린 코딩 플랫폼을 구축하고 있다. 텍스트와 이미지를 넘어선 멀티모달 에이전틱 LLM(Large Language Model, 대규모 언어 모델)을 학습시키기 위해 대규모 컴퓨팅 자원을 투입하며, 이는 데이터 유출 우려가 큰 산업군에서 AI를 실무에 적용하는 유일한 대안이 된다. 국내 금융권이나 공공기관이 망 분리 규제를 준수하면서도 개발 생산성을 높이려면, 외부 클라우드 연결 없이 내부에서 작동하는 전용 코딩 AI 인프라가 필수적이다. 이제 소버린 여부는 단순한 선택지가 아니라 실제 솔루션 도입을 결정하는 핵심 구매 기준이 되고 있다.

Prima Mente는 NVIDIA Blackwell(엔비디아의 최신 GPU 아키텍처) GPU를 도입해 모델 학습 속도를 약 3배 향상시켰다. 이를 통해 5가지 생물학적 데이터 모달리티를 결합한 Pleiades 2 파운데이션 모델을 개발하며 알츠하이머, 파킨슨병 등 난치병의 바이오마커를 식별하는 연구를 수행한다. 생물학이나 신소재 같은 특수 도메인 모델을 구축하려는 한국의 연구 기관과 기업에 최신 가속기의 조기 확보는 단순한 하드웨어 확충이 아니다. 이는 모델 학습 주기를 단축해 글로벌 연구 경쟁에서 우위를 점하게 하는 실질적인 시간 자원 확보와 같다. 전용 가속기와 Transformer Engine(모델 최적화 엔진)을 통한 최적화가 뒷받침되지 않은 도메인 모델은 학습 비용 과다로 인해 상용화 단계에서 경쟁력을 잃을 가능성이 크다.

글로벌 빅테크의 API 의존도를 낮추려는 실무자에게 5,400개의 GH200과 NVIDIA Dynamo 프레임워크의 결합은 명확한 대안이 된다. 모델 콜드 스타트 속도를 70배 높이고 KV 캐시를 4배 압축하는 기술적 최적화는 대규모 클러스터의 실제 구동 효율을 결정하는 핵심 변수다.

이러한 국가 단위의 컴퓨팅 자원 확보는 추론 비용을 최대 95%까지 낮추는 실무적 결과로 직결된다. 결국 소버린 AI의 본질은 데이터 주권이라는 상징성을 넘어 추론 비용의 구조적 우위를 점하는 경제적 생존 전략이다.