엔비디아 루빈, 45도 액체 냉각의 등장
데이터센터라고 하면 흔히 냉동고처럼 차갑고 시끄러운 공간을 떠올린다. 서버실의 온도가 낮을수록 효율적이라는 상식은 수십 년간 업계의 정설이었다. 하지만 엔비디아의 루빈(Rubin) 세대 인프라는 이러한 상식을 완전히 뒤집었다. 루빈은 서버 내부의 모든 구성 요소를 액체로 식히는 세계 최초의 100% 액체 냉각 인프라를 구현했다.
루빈 세대 AI 인프라는 기존의 하이브리드 냉각 방식을 완전히 대체했다. 과거에는 GPU나 CPU 같은 핵심 칩에만 냉각판을 붙이고 나머지는 공기로 식혔으나, 루빈은 모든 연산 칩과 네트워크 구성 요소 전체를 액체 냉각 범위에 포함했다. 시스템 내부에 냉각 팬을 전혀 두지 않고 폐쇄 루프 구조로 액체만 순환시켜 열을 식히는 방식이다. 특히 냉각액의 작동 온도 임계치를 최대 45도(113도 화씨)까지 높여 설계했다. 이는 실리콘 프로세서가 생각보다 훨씬 따뜻한 환경에서도 성능 저하 없이 작동할 수 있다는 물리적 특성을 활용한 결과다.
엔비디아는 이러한 고온 액체 냉각 설계를 실제 현장에 즉시 적용할 수 있도록 NVIDIA DSX AI 팩토리 레퍼런스 디자인(NVIDIA DSX AI factory reference design)을 제시했다. 이는 AI 팩토리의 인프라 스택을 설계하고 구축하며 운영하는 전 과정에 대한 실무 가이드라인이다. 실무자는 이 레퍼런스 디자인을 통해 개별 칩부터 네트워크 부품까지 이어지는 전체 냉각 경로를 최적화하고 운영 기준을 수립할 수 있다. 칩당 전력 소모량이 급증하여 공랭식의 물리적 한계를 넘어서는 시점에서 100% 액체 냉각으로의 전환은 데이터센터 운영의 필수 조건이 된다.
팬 없는 서버, 폐쇄 루프의 작동 원리
데이터센터에 들어서면 가장 먼저 들리는 것은 귀를 찌르는 소음이다. 기존 공랭식 서버의 냉각 팬은 85데시벨 이상의 소음을 내며, 이 때문에 작업자는 귀마개를 써야만 한다. 과거에는 데이터센터가 냉동고처럼 차가워야 효율적이라는 인식이 강해 공기 흐름을 제어하는 복잡한 물리적 동선 관리가 필수적이었다. 루빈 아키텍처는 이 모든 제약을 제거했다. 전면의 구멍 뚫린 타공 베젤 대신 밀폐 패널을 적용해 공기 흐름을 제어할 필요가 없는 구조로 바뀌었다. 기계적 장치로 바람을 일으키는 대신 액체를 순환시켜 열을 잡는 방식으로 전환한 결과다.
냉각액은 물 75%와 프로필렌 글리콜(propylene glycol, 동결 방지 및 부식 억제제) 25%를 혼합해 사용한다. 이 액체는 프로세서 위에 밀착된 콜드 플레이트(cold plates, 칩의 열을 직접 흡수하는 금속판)를 통해 흐르며 열을 앗아간다. 45도로 진입한 냉각액은 칩 표면에서 열 부하를 흡수해 약 55도가 된 상태로 배출된다. 엔비디아 열공학 팀은 단일 입구와 출구를 통해 보드 위 여러 고전력 칩에 액체를 배분하는 루프를 설계해 트레이 수준의 냉각 구조를 단순화했다. 이렇게 뜨거워진 액체는 폐쇄 루프를 따라 외부의 드라이 쿨러(dry coolers, 외부 공기로 액체를 식히는 대형 라디에이터 코일)로 이동해 열을 방출한다. 루프는 최초 1회 충전 후 시설 수명 내내 밀폐된 상태로 순환한다.
45도라는 높은 진입 온도는 냉각 시스템의 설계를 단순하게 만든다. 외부 기온이 이보다 낮다면 전력을 많이 쓰는 칠러(chiller, 액체를 강제로 냉각하는 냉동기)를 가동하지 않고 드라이 쿨러만으로도 충분히 열을 식힐 수 있다. 운영자는 설치 지역의 연간 평균 기온을 분석해 칠러 없는 설계가 가능한지 판단해야 한다. 스코틀랜드 하이랜드와 애리조나 피닉스처럼 지역에 따라 칠러 의존도는 달라지지만, 45도 기준의 설계는 칠러 가동 시간을 연간 1% 미만으로 낮출 가능성을 높인다. 이는 냉각 장치의 기계적 의존도를 낮춰 전력 비용과 용수 사용량을 획기적으로 줄이는 실무적 판단 기준이 된다.
50MW 시설당 400만 달러, 수치로 보는 효율
전기 요금 고지서를 볼 때마다 한숨 쉬는 운영팀에게 온도 1도의 변화는 곧 수억 원의 예산 절감으로 이어진다. 데이터센터 전체 전력 소비의 최대 40%가 냉각에 사용되는 환경에서 칠러(냉각기) 온도를 단 1도만 높여도 냉각 에너지 비용을 약 4% 줄일 수 있다. 이는 전력 효율을 높이는 단순한 팁이 아니라 냉각 장치의 가동 시간을 물리적으로 줄여 하드웨어 마모를 늦추고 유지보수 주기까지 늘리는 실질적인 운영 전략이다. 온도 임계치를 높여 기계적 냉각 의존도를 낮추는 것이 운영비 절감의 가장 확실하고 빠른 경로가 된다.
50MW 규모의 하이퍼스케일(초대형 데이터센터) 시설을 기준으로 보면 액체 냉각 인프라 전환 시 연간 400만 달러 이상의 에너지와 용수 비용을 아낄 수 있다. 기존 냉각탑 기반 시스템은 메가와트당 연간 약 260만 갤런의 물을 소비하며 막대한 용수 비용과 환경 부담을 동시에 짊어졌다. 반면 루빈 세대의 액체 냉각 방식은 물 사용량을 거의 0으로 만들어 최대 100%의 용수 절감률을 기록한다. 이는 용수 확보가 어려운 지역에서도 데이터센터를 구축하고 운영할 수 있는 경제적 근거가 되며, 물 사용량 감소가 곧바로 운영 비용의 하락으로 연결되는 비용 구조를 만든다.
물리적 공간 효율에서도 실무자가 즉각 체감할 수 있는 수치가 확인된다. 기존에 6U(랙 유닛, 서버 랙의 높이 단위)를 점유하던 냉각 시스템이 2U로 축소되었다. 랙 공간의 3분의 1만 사용하고도 동일하거나 더 높은 냉각 성능을 구현한다는 의미다. 남는 공간에 더 많은 GPU 서버를 배치함으로써 동일 면적당 연산 밀도를 획기적으로 높일 수 있다. 데이터센터 증축 없이 컴퓨팅 파워를 확장해야 하는 현장 실무자에게 2U 축소는 랙 설계의 자유도를 완전히 바꾸고 상암이나 가산 같은 도심형 데이터센터의 공간 제약을 해결하는 결정적인 판단 지표가 된다.
한국형 AI 팩토리의 설계 판단 기준
운영 비용이 0원에 가깝다고 믿는 자원 중 가장 위험한 것이 외부 공기다. 데이터센터 설계에서 외부 기온은 단순한 환경 변수가 아니라 칠러(냉각기) 가동 여부를 결정하는 직접적인 비용 변수다. 루빈 세대의 45도 액체 냉각 설계를 적용하면 외부 기온이 낮은 지역에서는 드라이 쿨러(대형 라디에이터 코일)만으로 열을 배출할 수 있다. 일부 기후 조건에서는 연간 칠러 사용률을 1% 미만으로 낮추는 칠러리스(chiller-less) 운용이 가능하다. 이는 기계적 냉각 장치에 들어가는 전력과 용수 비용을 획기적으로 줄이는 실무적 판단 근거가 된다. 한국의 겨울과 봄, 가을철 기온을 활용하면 냉동기 가동 시간을 최소화해 운영 지출을 낮출 수 있다.
AI 팩토리에서 버려지는 잔류 열은 단순한 폐기물이 아니라 인근 상업이나 주거 건물의 난방으로 재활용 가능한 에너지원이다. 이를 폐열 회수(Waste Heat Recovery)라고 하며, 데이터센터의 열 효율을 높이는 동시에 지역 사회의 에너지 비용을 낮추는 모델로 연결된다. 전력 밀도가 급격히 높아지는 임계점에서는 Motivair(슈나이더 일렉트릭 냉각 부문)와 같은 전문 파트너십을 통해 인프라를 전환해야 한다. 칩당 와트수가 공랭식으로 감당할 수 있는 한계를 넘어서는 시점이 액체 냉각을 필수적으로 도입해야 하는 기술적 전환점이다. 공랭식은 칩의 전력 밀도가 일정 수준을 넘으면 방열판의 크기가 커져 랙 내부의 공간 효율이 급격히 떨어진다.
한국처럼 계절별 온도 차가 뚜렷한 환경에서는 연간 외부 기온 데이터를 기반으로 드라이 쿨러의 용량을 산정하는 것이 우선이다. 칠러 없이 운용 가능한 일수를 계산해 연간 전력 절감액을 추산하고, 이를 통해 초기 설비 투자비 회수 기간을 산출해야 한다. 칩의 발열량이 증가해 공랭식 쿨러의 물리적 크기가 랙 공간을 과도하게 점유하거나 팬 소음이 임계치를 넘을 때 액체 냉각으로의 전환을 결정한다. 특히 칩당 와트수가 공랭식의 물리적 한계치를 초과하는 시점을 정확히 파악해 인프라 교체 시기를 잡는 것이 중요하다. 최종적으로는 칩당 전력 밀도와 지역 기후 데이터를 대조해 칠러리스 설계 가능 여부를 판단하는 것이 운영비 최적화의 핵심이다.
데이터센터는 더 이상 냉동고처럼 차갑고 시끄러운 공간일 필요가 없다. 루빈이 구현한 100% 액체 냉각은 냉각의 목적을 단순한 온도 저하가 아닌 전력과 용수 비용의 최적화라는 경영 효율의 영역으로 전환했다.
결국 인프라 운영 효율의 성패는 칠러 없는 드라이 쿨러 설계가 가능한 환경인지 빠르게 판단하는 분석력에 달렸다. 지금 즉시 칩당 전력 밀도와 지역 기후 데이터를 대조해 칠러리스 설계 시 절감되는 구체적인 운영비와 용수 비용 수치를 산출하는 것으로 설계를 시작해야 한다.




