1조 파라미터 모델 추론 속도 7배 끌어올린 Cerebras

월요일 오전, 샌니베일의 한 데이터센터.

1만 개의 입력 토큰이 포함된 복잡한 코딩 요청이 시스템에 입력된다. 공식 엔드포인트에서 163.7초가 소요되던 작업이 이곳에서는 단 5.6초 만에 완료된다. 프롬프트 처리부터 추론, 500개의 출력 토큰 생성까지 걸린 시간이다.

이 장면 뒤에는 GPU 중심의 추론 시장을 정면으로 겨냥한 Cerebras Systems(세레브라스 시스템즈)의 하드웨어 전략이 있다. 2026년 최대 규모의 IPO를 마친 이들은 이제 속도를 넘어 모델의 규모(Scale)라는 최전선에서 경쟁을 시작했다.

Kimi K2.6 추론 속도 초당 981토큰 달성

개발팀이 공개한 수치는 여기서 갈린다. Cerebras(웨이퍼 스케일 엔진 기반의 AI 칩 제조사)가 구동한 Kimi K2.6(Moonshot AI가 개발한 1조 파라미터 규모의 오픈 웨이트 모델)의 출력 속도는 초당 981토큰을 기록했다. 이는 벤치마크 전문 기관인 Artificial Analysis(AI 모델 성능 분석 기업)의 독립 검증을 통해 확인된 수치다. 주목할 점은 기존 GPU 기반 클라우드 제공업체들과의 격차다. Cerebras의 추론 속도는 차순위 GPU 기반 업체보다 6.7배 빠르며, 업계 중앙값과 비교하면 23배에 달하는 압도적인 속도 차이를 보인다. 1조 개라는 거대한 파라미터 규모를 유지하면서도 이러한 속도를 구현했다는 점이 핵심이다.

실제 작업 환경에서의 지연 시간 단축은 더욱 극명하게 나타난다. 10,000개의 입력 토큰과 500개의 출력 토큰이 필요한 에이전트 기반 코딩 요청을 수행했을 때, 최종 답변까지 소요된 시간은 단 5.6초였다. 반면 Kimi의 공식 엔드포인트(API 서비스 접속 지점)에서는 동일한 작업에 163.7초가 소요되었다. 결과적으로 최종 답변 도달 시간에서 약 29배의 성능 개선이 이루어진 셈이다. 그러나 이러한 수치는 단순한 소프트웨어 최적화의 결과가 아니다. 대규모 파라미터를 처리하는 과정에서 발생하는 병목 현상을 하드웨어 수준에서 해결했기에 가능한 수치다.

Cerebras는 그동안 웨이퍼 스케일 칩이 소형 및 중형 모델에만 적합하다는 시장의 회의적인 시각과 지속적으로 싸워왔다. 하지만 이번에 1조 파라미터 규모의 Kimi K2.6을 실제 프로덕션 환경에서 서비스하며 모델 규모의 한계를 돌파했다는 기술적 변곡점을 만들었다. 이는 오픈 웨이트 모델이 폐쇄형 API의 대안으로 사용될 수 있음을 속도 측면에서 증명한 사례다. 특히 코딩과 같은 고부가가치 작업에서 응답 속도는 생산성과 직결되기에, 29배의 시간 단축은 실질적인 서비스 경쟁력의 차이로 이어진다.

이러한 기술적 성과는 최근 완료된 IPO(기업공개)를 통한 막대한 자금력과 맞물려 있다. Cerebras는 이번 IPO를 통해 55.5억 달러의 자금을 조달했으며, 현재 시가총액은 950억 달러 규모로 평가받고 있다. 확보된 자본은 하드웨어 확장과 생태계 구축에 투입될 예정이다. Cerebras는 자본 시장의 평가와 기술적 실체를 동시에 확보하며, 단순한 속도 경쟁을 넘어 초거대 모델 추론 시장의 주도권을 잡겠다는 전략을 구체화하고 있다.

NVLink의 200배 대역폭, 웨이퍼 스케일 엔진 3(WSE-3)의 구조

대부분의 AI 추론은 엔비디아 GPU를 72개 묶은 NVL72 구성의 클러스터에서 수행된다. 이 구조에서는 모델 파라미터가 수십 개의 개별 칩에 분산 저장되며, 연산 과정에서 데이터가 칩 사이를 끊임없이 오가는 셔틀링 과정이 필수적이다. 반면 세레브라스의 웨이퍼 스케일 엔진 3(WSE-3, 실리콘 웨이퍼 크기의 단일 칩 구조)는 칩 간 연결이라는 개념 자체를 물리적으로 제거했다. 식탁 접시 크기의 거대한 단일 칩 하나가 연산과 메모리를 동시에 처리하도록 설계되었으며, 이를 통해 기존 GPU 클러스터의 고질적인 문제였던 인터커넥트 대역폭 병목 현상을 원천적으로 차단했다. 개별 칩을 연결하는 네트워크 패브릭에 의존하는 대신, 단일 실리콘 평면 위에서 모든 데이터 흐름을 제어하는 방식이다.

주목할 점은 메모리 계층의 물리적 배치와 설계 방식이다. WSE-3는 44GB의 온칩 SRAM(Static Random Access Memory, 정적 랜덤 액세스 메모리)을 탑재했다. 이는 GPU가 사용하는 HBM(High Bandwidth Memory, 고대역폭 메모리)이 별도의 스택 형태로 배치되는 것과 달리, 메모리가 프로세서 다이 위에 직접 통합된 형태다. 데이터가 이동해야 하는 물리적 거리가 극단적으로 짧아지면서 지연시간은 낮아지고 대역폭은 비약적으로 상승했다. 효율적인 자원 활용을 위해 모델 가중치는 4비트 정밀도로 저장하여 메모리 점유율을 낮췄으며, 실제 연산 단계에서는 16비트 부동 소수점을 사용하여 연산 정밀도를 유지하는 방식을 채택했다.

MoE(Mixture-of-Experts, 전문가 혼합) 모델의 처리 구조에서도 하드웨어적 이점이 극대화된다. WSE-3는 특정 MoE 레이어에 속한 모든 전문가를 동일한 웨이퍼 내에 배치하는 전략을 사용한다. 이로 인해 전문가 선택과 데이터 전달을 위한 라우팅 과정이 외부 네트워크가 아닌 SRAM 내부 속도로 처리된다. 일반적인 GPU 환경에서는 전문가 간 통신을 위해 칩 외부의 네트워크 패브릭을 거쳐야 하지만, WSE-3는 이를 칩 내부에서 완결 짓는다. 전체 시스템은 약 20대의 CS-3 시스템 클러스터로 구성되어 거대한 모델 가중치를 분산 배치하고 활성화 값을 실시간으로 스트리밍한다. 결과적으로 온웨이퍼 네트워크 패브릭이 제공하는 대역폭은 NVL72 구성의 NVLink보다 200배 이상 높으며, 이는 1조 파라미터급 모델에서도 데이터 정체 없이 연산을 수행할 수 있는 물리적 기반이 된다.

엔터프라이즈 AI 시장의 대안: 비용과 용량 한계 돌파

Kimi K2.6가 기록한 SWE-Bench Pro 58.6점은 단순한 수치를 넘어 모델의 실질적 성능을 입증한다. 이는 Claude Opus 4.6를 상회하며 GPT-5.4와 동등한 수준의 성능을 보여준 결과다. 기술적 구조를 살펴보면 1조 개의 파라미터를 보유한 MoE(Mixture-of-Experts, 전문가 혼합) 모델로 설계되었으며, 토큰당 320억 개의 파라미터만 활성화해 연산 효율을 극대화했다. 구체적으로 384개의 전문가 중 8개를 선택하고 1개를 공유하는 구조를 통해 추론 정밀도를 높였으며, 256,000 토큰의 컨텍스트 윈도우를 지원한다. 이는 대규모 코드베이스 분석이나 복잡한 문서 처리 등 엔터프라이즈급 작업에서 필수적인 용량 한계를 돌파하려는 시도로 풀이된다.

개발자와 기업이 체감하는 가장 큰 변화는 Anthropic(앤스로픽) API가 가진 고비용 구조와 용량 부족 문제를 해결할 수 있는 실질적 대안이 등장했다는 점이다. 기존의 폐쇄형 모델들은 뛰어난 성능에도 불구하고 API 비용이 지나치게 높고, 트래픽 급증 시 용량 부족으로 서비스가 중단되는 사례가 빈번했다. 실제로 주말 사이 용량 부족으로 API 호출이 실패하는 등의 운영 리스크는 엔터프라이즈 고객들에게 심각한 페인 포인트로 작용해 왔다. 반면 Kimi K2.6는 오픈 웨이트 모델로서 이러한 제약을 제거하며, 특히 프론트엔드 디자인부터 인증, 데이터베이스 작업, 장기 에이전트 실행을 아우르는 풀스택 워크플로우에서 효율적인 대체제로 포지셔닝한다.

이러한 시장 전략은 현재 포춘 500대 기업 중 소프트웨어, 금융 서비스, 헬스케어 분야의 기업들을 대상으로 진행 중인 클라우드 트라이얼을 통해 구체화되고 있다. 고가의 폐쇄형 API를 사용하던 기업들이 성능 손실 없이 비용을 낮출 수 있는 드롭인(Drop-in, 즉시 교체 가능한) 대체제를 찾고 있다는 방증이다. 그러나 주목할 점은 이 서비스 구조에 내재된 지정학적 리스크다. Kimi K2.6는 중국 베이징의 Moonshot AI(문샷 AI)가 개발한 모델이지만, 서비스는 미국 칩 제조사인 Cerebras(세레브라스)의 하드웨어를 통해 미국 기업에 제공되는 독특한 형태를 띤다. 미국 시장 내 중국 AI 기업에 대한 감시가 강화되는 시점에서 이러한 구조는 기술적 효용성과 별개의 변수로 작용한다.

특히 금융이나 헬스케어, 국방과 같이 엄격한 컴플라이언스(Compliance, 준수 사항) 기준을 적용받는 산업군에서는 이 점이 결정적인 고려 사항이 된다. 모델의 추론 성능과 비용 효율성이 아무리 뛰어나더라도, 데이터의 흐름과 모델의 출처가 규제 가이드라인에 부합하는지를 먼저 검토해야 하기 때문이다. 결국 기업들은 Cerebras가 제공하는 압도적인 추론 속도와 Kimi K2.6의 성능이라는 기술적 이점과, 중국 개발 모델 사용에 따른 지정학적 리스크 사이에서 전략적 선택을 내려야 하는 상황에 놓여 있다.

1조 파라미터 모델 추론 속도 7배 끌어올린 Cerebras

Kimi K2.6 추론 속도 초당 981토큰 달성

NVLink의 200배 대역폭, 웨이퍼 스케일 엔진 3(WSE-3)의 구조

엔터프라이즈 AI 시장의 대안: 비용과 용량 한계 돌파

관련 기사