투자금과 참여 투자자가 보여주는 신호
AI 모델의 연산량이 급증하며 GPU 과열을 막기 위한 액체 냉각(Liquid Cooling) 시스템 도입이 데이터 센터 운영의 핵심 과제가 됐다. 냉각 시스템 내부의 오염 상태를 실시간으로 추적하는 기술을 개발한 Omen AI가 3,100만 달러 규모의 시리즈 A 투자를 유치하며 본격적인 시장 진입을 알렸다.
이번 투자 라운드는 Nava Ventures가 주도했으며 CRV, Vanderbilt University, Mann+Hummel, Starhill Holdings, Hard Launch Capital 등이 투자자로 참여했다. 2024년 설립된 Omen AI가 지금까지 조달한 총 금액은 4,000만 달러에 달한다.
Omen AI가 제공하는 솔루션은 데이터 센터 냉각액의 상태를 실시간으로 모니터링하는 소형 분광계(spectrometer)다. 이 장치는 액체 냉각 칩 시스템 내에서 박테리아가 성장하는지 즉각적으로 감지해 오염이 대규모 문제로 번지기 전에 이를 포착하는 기능을 수행한다.
냉각액 내부에서 어떤 화학적 변화가 일어나는지 알 수 없는 상태에서는 오염 발생 시 시스템 전체를 폐쇄해야 하는 위험을 감수해야 한다. 실시간 모니터링은 냉각액의 화학적 상태에 대한 가시성을 확보해 수백만 달러의 다운타임 비용이 발생하는 리스크를 방지하는 판단 기준이 된다.
확인해야 할 핵심 지점
현장에서 쓰던 장비의 용도가 바뀌어 전혀 다른 공간에 배치되는 순간이 있다. 건설 현장의 중장비 유압 시스템을 관리하던 기술이 데이터 센터의 서버 랙 사이로 들어왔다. Omen AI는 사업 초기 Caterpillar(캐터필러, 건설 및 광산 장비 제조사) 딜러십을 핵심 고객으로 확보해 중장비 유체 시스템 모니터링에 집중했다. 이후 터빈과 발전기 고객들의 요청을 처리하는 과정에서 데이터 센터 내부의 HVAC(공조 시스템)부터 칩 냉각 시스템에 이르기까지 건물 전체가 냉각수로 가득 차 있다는 점을 발견했다. 성장 속도가 빠른 데이터 센터 인프라 시장을 새로운 잠재 고객군으로 설정하고 사업 영역을 확장한 결과다.
분석을 위해 냉각수 샘플을 채취해 외부 실험실로 보내던 관행이 현장 즉시 분석 체계로 바뀐다. 현재 많은 조직이 냉각수 상태를 파악하기 위해 샘플을 우편으로 보내 실험실의 분석 결과를 기다리는 방식에 의존하고 있다. 이러한 물리적 거리와 시간의 제약을 없애기 위해 현장에서 직접 데이터를 확인하는 온프레미스(On-premises, 소프트웨어를 자체 서버에 설치해 운영하는 방식) 분석 솔루션이 도입되는 추세다. 이달 초 수질 모니터링 전문 기업인 Pyxis(픽시스)가 데이터 센터 냉각제 모니터링 제품을 출시하며 이 시장에 본격적으로 진입했다. Omen AI가 개척하던 현장 분석 영역에 기존 수질 관리 전문 기업이 가세하며 시장 경쟁이 구체화되고 있다.
TensorWave를 포함한 12곳의 데이터 센터 고객사
인프라 관리의 기준이 바뀌는 속도가 빨라졌다. Omen AI는 현재 TensorWave를 포함한 12곳의 데이터 센터 고객사와 협력하며 솔루션을 현장에 적용하고 있다. AMD 칩 기반의 AI 컴퓨팅 클라우드(가상화된 고성능 연산 자원)를 구축하는 TensorWave 등이 이 시스템을 도입해 인프라 모니터링 최적화를 진행 중이다. 고성능 칩셋의 밀집도가 높아지면서 냉각 시스템의 미세한 화학적 변화가 전체 서비스 가용성에 즉각적인 영향을 주는 환경이 되었기 때문이다.
분석 장치는 박테리아 성장뿐 아니라 유체 내에 섞인 금속 성분을 통해 부품의 물리적 마모 상태를 식별한다. 냉각수 내부에서 구리(copper)나 크롬(chromium) 성분이 발견되면 펌프가 마모되고 있다는 신호로 읽는다. 실리콘(silicon) 성분이 검출될 경우에는 씰(seal, 액체가 새지 않게 막는 밀봉 장치)의 마모를 감지한다. 유체 내 성분 변화를 통해 하드웨어의 물리적 상태를 실시간으로 추적하는 방식이다.
이는 냉각수 샘플을 분석하기 위해 전체 시스템을 셧다운해야 했던 기존의 운영 리스크를 낮춘다. 어떤 부품이 어느 정도 마모되었는지 성분으로 확인하면 불필요한 점검 시간을 줄이고 부품 교체 시점을 정확히 결정할 수 있다. 결과적으로 샘플 분석을 위한 강제 중단이 초래하는 다운타임 비용과 리스크를 얼마나 줄일 수 있는지가 데이터 센터 운영 효율의 핵심 판단 기준이 된다.
광학 하드웨어 비용 하락과 신호 처리 소프트웨어의 개선은 냉각수 내 박테리아뿐 아니라 구리, 크롬, 실리콘 등 미세 마모 입자까지 실시간으로 검출하는 길을 열었다. 샘플 분석을 위해 시스템을 셧다운하며 감수해야 했던 다운타임 비용과 리스크를 실시간 감지로 대체하는 것이 가능해진 시점이다. 인프라 관리의 성패는 이제 물리적 샘플링의 공백을 얼마나 정교한 데이터로 메우느냐로 결정된다.




