하이브리드 로컬-서버 추론 오케스트레이터를 공개했다

온디바이스 AI의 보안성과 클라우드 LLM(거대언어모델)의 강력한 성능 사이에서 사용자가 매번 선택을 강요받던 상황이 빠르게 사라지고 있다. Perplexity AI는 Computex 2026에서 이 경계를 허무는 하이브리드 로컬-서버 추론 오케스트레이터를 공개했다. 이 소프트웨어는 사용자의 개입 없이 작업 단위로 로컬과 클라우드 중 실행 위치를 실시간으로 결정한다. 작업이 진행되는 도중에 어떤 워크로드를 사용자 기기 내부에 남기고 어떤 것을 클라우드의 프런티어 모델로 라우팅할지 자율적으로 판단해 지능, 정확성, 개인정보 보호, 비용의 균형을 맞춘다.

추론의 위치를 실시간으로 제어하는 기술은 개별 사용자를 넘어 국가 단위의 AI 인프라 구축 전략까지 영향을 미친다. 민감한 데이터가 기기를 떠나지 않은 상태에서 유의미한 추론 결과가 도출된다면, 데이터 주권을 지키기 위해 수십억 달러를 들여 국내 데이터 센터를 구축하려는 국가들의 전략적 계산법이 달라지기 때문이다. 이는 데이터 센터라는 물리적 거점이 완전히 불필요해지는 것을 의미하지는 않지만, 인프라를 서둘러 확장해야 한다는 시급성을 낮추는 근거가 된다.

결국 로컬 하드웨어의 추론 성능 향상은 클라우드 운영 비용의 절감과 데이터 주권 확보라는 실무적 이점으로 이어진다. 기기 자체에서 처리 가능한 워크로드의 비중이 늘어날수록, 기업과 국가는 데이터 유출 위험을 줄이면서도 고성능 AI의 혜택을 누리는 효율적인 경로를 확보하게 된다.

새로운 하이브리드 추론 시스템은 작업 단위로 물리적 실행

민감한 개인 정보를 다루는 실무자는 보안을 위해 성능을 포기하거나, 성능을 위해 데이터 유출 위험을 감수해야 했다. 기존 Personal Computer(개인용 컴퓨터) 제품은 로컬 파일 접근과 서버 연산을 명확히 구분해 노동을 분담해 왔다. 하지만 이번에 공개된 하이브리드 추론 오케스트레이터는 시스템이 각 작업의 어느 부분이 어디서 실행되어야 하는지 스스로 추론한다. 단순히 어떤 모델을 사용할지 선택하는 단계를 넘어, 물리적 실행 위치를 작업 단위로 결정하는 구조를 갖췄다. 금융 기록이나 건강 정보 같은 민감 데이터는 기기 내 로컬에 유지하고, 프런티어급 모델의 연산력이 필요한 무거운 추론 작업만 클라우드로 전송해 처리하는 방식이다.

Aravind Srinivas(아라빈드 스리니바스) Perplexity AI(퍼플렉시티 AI) CEO는 Intel(인텔) 기조연설에서 Intel Core Ultra Series 3(인텔 코어 울트라 시리즈 3)를 활용한 시연을 진행했다. 해당 하드웨어에서 실행되는 로컬 모델이 어떤 정보가 기기에 남아야 하고 어떤 정보가 클라우드 모델로 전송될 수 있을지를 실시간으로 판단하는 과정을 직접 보여줬다. 로컬 모델이 라우팅의 기준점이 되어 데이터의 흐름을 제어하는 하이브리드 구조를 구현한 것이다. 결과적으로 로컬 하드웨어의 성능 향상이 데이터 거버넌스 해결과 클라우드 비용 절감이라는 구체적인 실무적 판단 기준으로 연결되는 지점을 짚어냈다.

하이브리드 오케스트레이션은 고성능 로컬 실리콘에 대한 경제적

기업이 매달 지불하는 클라우드 추론 비용을 줄이는 방법은 이제 하드웨어 투자로 옮겨간다. 온디바이스 칩의 성능이 높아질수록 더 많은 추론 작업을 로컬에서 실행할 수 있기 때문이다. 이는 클라우드 사용료를 직접적으로 낮추는 동시에, 외부 유출이 민감한 워크로드의 지연 시간을 개선하는 결과로 이어진다. 초기에는 개인 사용자가 체감하겠지만, 결국 기업들이 더 강력한 로컬 실리콘에 투자하게 만드는 직접적인 경제적 유인이 된다. 이러한 구조는 Nvidia와 Intel 같은 칩 제조사들이 더 높은 성능의 칩을 시장에 계속해서 공급해야 할 명확한 경제적 근거가 된다.

올가을 출시를 앞둔 RTX Spark(엔비디아의 AI 네이티브 윈도우 PC용 슈퍼칩)는 이러한 하이브리드 추론 환경을 위해 설계된 장치다. 이 칩은 최대 20개의 Arm CPU 코어와 6,144개 CUDA 코어를 탑재한 Blackwell GPU(블랙웰 GPU)를 통해 연산 능력을 확보했다. 여기에 128GB LPDDR5X RAM을 결합해 대규모 모델 구동에 필요한 메모리 용량을 확보했다. 특히 AI 에이전트와 1,200억 개의 파라미터를 가진 모델까지 지원할 수 있는 전력과 메모리를 로컬 PC 환경에 구현했다. 로컬 하드웨어의 성능 임계치를 높이는 것이 클라우드 비용 절감과 데이터 거버넌스 해결로 이어지는 실무적 판단 기준이 된 결과다.

실무자는 보안을 위해 성능을 포기하거나, 성능을 위해 데이터 유출 위험을 감수해야 했다. Perplexity는 사용자 개입 없이 작업 단위로 로컬과 클라우드 중 실행 위치를 실시간으로 결정하는 시스템으로 이 선택지를 통합했다.

Intel Core Ultra Series 3 기반의 로컬 모델이 데이터 민감도를 판단해 경로를 지정하는 하이브리드 구조는 하드웨어 성능 향상이 곧 클라우드 비용 절감과 데이터 거버넌스 해결로 이어짐을 보여준다. AI 도입의 핵심은 이제 모델 선택을 넘어, 로컬 실리콘의 성능 임계치를 통해 클라우드 의존도를 최적화하는 실무적 계산으로 바뀐다.