답변 속도 최대 85% 향상, DeepSeek가 푼 LLM 추론 병목

발표에서 확인된 핵심 사실

AI 챗봇이 답변을 한 글자씩 느리게 출력하는 화면을 기다리는 일은 흔한 경험이다. DeepSeek는 이 추론 속도를 높이는 새로운 프레임워크 DSpark를 MIT 라이선스로 공개했다. 기본 모델이 생성하는 답변 내용은 그대로 유지하면서 출력 속도만 높이도록 설계된 시스템이다. 누구나 자유롭게 수정하고 배포할 수 있는 MIT 라이선스를 적용했다.

기술 논문과 모델 체크포인트가 함께 배포됐다. 추측적 디코딩(Speculative Decoding, 작은 모델이 먼저 예측하고 큰 모델이 검증해 속도를 높이는 방식) 시스템의 학습과 평가를 위한 코드베이스 DeepSeek도 포함됐다. 개발자는 DeepSeek을 활용해 추론 최적화 시스템을 직접 학습시키고 성능을 평가할 수 있다. 이는 오픈웨이트 모델을 운영하는 기업이 하드웨어 효율성과 사용자 응답 속도를 가늠하는 구체적인 기술 기준이 된다.

실제 서비스 환경 테스트 결과 전체 시스템 처리량(Aggregate Throughput)은 약 51~52% 개선됐다. 사용자당 80 tps(초당 토큰 수)를 서비스 목표치로 설정한 DeepSeek-V4-Flash 모델은 51%의 처리량 향상을 보였다. 사용자당 35 tps를 목표로 한 DeepSeek-V4-Pro 모델은 52%의 향상을 기록했다. 특히 매우 엄격한 속도 목표치가 적용된 환경에서 기존 MTP-1 시스템보다 훨씬 더 많은 동시 요청을 처리하는 성능을 확인했다.

기술이 실제로 작동하는 방식

한쪽은 모든 토큰을 순차적으로 생성하며 사용자를 기다리게 하고, 다른 쪽은 다음 단어를 미리 예측해 시간을 단축한다. DSpark는 추론 속도를 최대 85%까지 향상시킨다. MIT 라이선스로 공개되어 누구나 활용 가능하다. 개별 사용자가 생성된 토큰을 받는 속도를 높여 실시간 응답성을 개선했다.

DSpark는 추측적 디코딩(Speculative Decoding, 가벼운 모델이 먼저 예측하고 대형 모델이 이를 검증하는 기법)으로 추론 병목 현상을 해결한다. 가벼운 드래프트 구성 요소가 다음에 등장할 가능성이 높은 토큰들을 미리 제안하는 방식이다. 대형 모델은 이 제안된 토큰 묶음을 하나씩 생성하는 대신 병렬로 한꺼번에 검토한다. 드래프트의 예측이 정확하면 시스템은 여러 토큰을 한 번에 처리하며 빠르게 전진한다. 예측이 틀린 경우에는 해당 토큰을 즉시 거부한다. 이후 수정된 토큰을 추가하여 다시 시도하는 과정을 통해 정확도를 유지한다.

성능 수치는 이전 MTP-1 베이스라인과 비교했을 때 사용자당 생성 속도에서 뚜렷한 차이를 보인다. DeepSeek-V4-Flash 모델은 60%에서 85% 사이의 속도 향상을 기록했다. DeepSeek-V4-Pro 모델은 57%에서 78%의 향상 폭을 나타냈다. 두 모델 모두 동일한 시스템 용량 조건에서 측정된 결과다. 이는 개별 사용자가 생성된 토큰을 받는 속도가 얼마나 빨라졌는지를 정량적으로 증명한다. 오픈웨이트 모델을 실제 서비스에 적용할 때 하드웨어 효율성과 사용자 응답 속도를 가늠하는 실질적인 판단 기준이 된다.

DeepSeek-V4 외에도 Qwen, Gemma 등 다른

특정 모델에서만 작동하는 기술일까? DeepSeek가 공개한 테스트 결과와 체크포인트에는 알리바바의 Qwen과 구글의 Gemma가 포함됐다. 모델 가중치와 서빙 스택을 제어하는 운영자는 자신의 타겟 모델에 맞게 DSpark 스타일의 드래프트 모듈을 학습시키거나 미세 조정할 수 있다. 드래프트 모듈은 큰 모델보다 먼저 다음 단어를 예측해 전체 추론 속도를 높이는 보조 모델이다. 오픈 웨이트 모델을 운영하는 기업 팀은 원칙적으로 자신의 타겟 모델에 최적화된 모듈을 직접 구축해 적용할 수 있다.

하드웨어 효율성을 극대화해 대규모 모델의 실시간 서비스 비용 문제를 해결하는 것이 DSpark의 핵심 목적이다. AI 배포 과정에서 가장 비용이 많이 드는 지점은 실사용자가 만족할 속도로 대형 모델을 서빙하면서 하드웨어 효율을 유지하는 일이다. DSpark는 이 지점에서 경제성을 확보해 서비스 운영 부담을 줄인다. 사용자가 긴 답변을 단어별로 느리게 받는 대신 빠르게 스트리밍 받는 경험을 제공한다.

이러한 효율성은 소비자 챗봇과 코딩 어시스턴트의 서비스 단가를 낮추는 결과로 이어진다. 복잡한 연쇄 작업을 수행하는 에이전트 워크플로우와 기업용 AI 시스템이 실질적인 사업성을 확보하는 기반이 된다. 오픈 웨이트 모델을 도입하려는 기업은 이제 하드웨어 자원 소모량과 사용자 응답 속도를 가늠하는 구체적인 기술적 기준을 갖게 됐다.

챗봇이 한 글자씩 답변을 출력하는 대기 시간은 이제 기술적 선택의 영역이다. DeepSeek가 MIT 라이선스로 공개한 DSpark는 작은 모델의 예측과 큰 모델의 검증을 결합해 추론 속도를 최대 85% 끌어올렸다.

오픈웨이트 모델을 도입하는 기업은 이제 하드웨어 자원 소모량과 사용자 응답 속도를 구체적으로 가늠할 수 있다. 모델의 체급보다 추론 효율성이 실제 서비스 경쟁력을 결정한다.

답변 속도 최대 85% 향상, DeepSeek가 푼 LLM 추론 병목

발표에서 확인된 핵심 사실

기술이 실제로 작동하는 방식

DeepSeek-V4 외에도 Qwen, Gemma 등 다른

관련 기사