90%.

Perceptron(비디오 분석 AI 스타트업)이 내놓은 Mk1 모델의 비용 절감 수치다. 고성능 비디오 분석을 위해 지불하던 비용이 10분의 1 수준으로 떨어진 셈이다. 그리고 이 파격적인 가격표는 단순한 저가 공세가 아니라 물리 AI(물리적 세계의 법칙을 이해하는 인공지능)의 대중화를 겨냥한 포석이다.

Mk1의 제원과 공격적 가격 체계

Perceptron은 자체 개발한 비디오 분석 추론 모델 Mk1을 출시했다. API(응용 프로그램 인터페이스, 소프트웨어 간 통신 규칙) 기준 입력 토큰 100만 개당 0.15달러, 출력 토큰 100만 개당 1.50달러로 책정했다. 이는 Anthropic의 Claude Sonnet 4.5, OpenAI의 GPT-5, Google의 Gemini 3.1 Pro 등 경쟁 모델보다 80~90% 저렴한 수준이다. Meta FAIR(메타의 기본 AI 연구팀)와 Microsoft 출신인 Armen Aghajanyan CEO는 16개월간 물리 세계의 복잡성을 해결하기 위한 멀티모달 레시피를 개발했다.

개발팀이 제시한 효율성 프런티어(성능 대비 비용 효율을 나타내는 지표) 차트에서 Mk1은 독보적인 위치를 점한다. 혼합 비용 기준 Mk1은 0.30달러 수준이다. 반면 GPT-5는 약 2.00달러, Gemini 3.1 Pro는 약 3.00달러에 달한다. Mk1은 비용을 획기적으로 낮추면서도 프런티어 모델급의 추론 성능을 유지했다.

기술적 핵심은 네이티브 비디오 처리 능력에 있다. 초당 최대 2프레임(FPS, 초당 프레임 수)의 속도로 영상을 처리하며 32K 토큰의 컨텍스트 윈도우(AI가 한 번에 기억하고 처리하는 정보의 양)를 제공한다. 개발자는 Python(파이썬, 범용 프로그래밍 언어) 기반의 Perceptron SDK(소프트웨어 개발 키트, 소프트웨어를 만들기 위한 도구 모음)를 통해 Focus, Counting, In-Context Learning 같은 특수 기능을 사용할 수 있다.

픽셀 단위 정밀도로 바꾼 비디오 분석 기준

예전의 시각-언어 모델(VLM, 이미지와 텍스트를 동시에 처리하는 모델)은 비디오를 단순한 정지 화면의 연속으로 처리했다. Mk1은 시간적 연속성을 유지하도록 설계되었다. 이 구조 덕분에 모델은 긴 영상 스트림을 시청하며 물체가 가려져도 정체성을 유지하며 추적한다. 로봇 공학이나 보안 감시 분야에서 필수적인 능력이다.

벤치마크 수치는 여기서 갈린다. 공간 추론을 측정하는 EmbSpatialBench에서 Mk1은 85.1점을 기록했다. 이는 Google의 Robotics-ER 1.5가 기록한 78.4점과 Alibaba의 Q3.5-27B가 기록한 84.5점을 모두 앞선 수치다. 특히 참조 표현 이해도를 측정하는 RefSpatialBench에서는 72.4점을 기록하며 GPT-5m(9.0점)과 Sonnet 4.5(2.2점)를 압도했다.

비디오 벤치마크에서도 우위가 이어진다. 첫 프레임과 마지막 프레임만으로는 추론이 불가능한 EgoSchema 하드 서브셋에서 41.4점을 기록했다. 이는 Gemini 3.1 Flash-Lite의 25.0점을 크게 상회하는 결과다. VSI-Bench(시간적 추론 능력을 측정하는 벤치마크)에서는 88.5점으로 비교 모델 중 최고점을 찍었다.

물리적 추론 능력은 실제 사용 장면에서 차이를 만든다. 농구공이 공중에 떠 있는 위치와 샷클락의 시간을 동시에 분석해 버저비터 여부를 판별한다. 단순한 패턴 인식을 넘어 물체가 시공간 속에서 어떻게 움직이는지 이해하는 단계다. 픽셀 단위의 정밀한 포인팅과 수백 개의 객체 카운팅이 가능하다. 아날로그 게이지나 시계 바늘을 읽는 작업에서도 높은 신뢰도를 보였다.

실제 테스트에서는 1906년 뉴욕 마천루 건설 영상을 정확히 묘사했다. 밧줄에 매달린 작업자 같은 특이한 장면을 빠르게 포착했다. 영상의 시각적 특징만으로 1900년대 초반이라는 시기까지 정확히 짚어냈다.

비용의 장벽이 무너진 물리 AI는 이제 연구실을 넘어 공장과 거리의 실시간 감시망으로 빠르게 스며들 것이다.