영상 이해하는 AI가 논리도 앞섰다 — 비디오 모델의 추론 능력 급성장

이번 주 AI 업계는 수학적 추론 능력의 비약적 발전과 비즈니스 모델의 지속 가능성이라는 두 가지 핵심 성과를 거뒀다. 오픈AI는 오랫동안 난제로 꼽혔던 '에르되시(Erdos) 기하학 문제'를 해결하며, 기존 대규모 모델에서 보기 힘들었던 정밀한 논리력을 입증했다. 동시에 시각적 환경을 이해하고 상호작용하는 '비디오 액션 모델'들이 특정 작업에서 GPT 5.2나 제미나이 2.5 같은 기존 주력 모델들을 앞지르는 성과를 냈다. 경영 성과도 눈에 띈다. 앤스로픽은 첫 분기 흑자를 기록하며 수익 구조를 증명했고, 구글의 제미나이 앱은 이용자 9억 명 돌파를 앞두고 있다. AI는 이제 단순한 기술 과시를 넘어 실질적인 수익 창출 단계로 진입했다.

AI를 실제로 배치하고 관리하는 체계도 정교해지고 있다. 특히 AI가 스스로 계획을 세워 여러 단계의 과업을 독립적으로 수행하는 '자율형 작업 흐름(agentic workflows)'이 도입되면서, 정보 처리 과정의 병목 현상인 'FOMAT' 비효율 문제를 해결하는 중이다. 이제 AI는 단순한 응답기를 넘어 스스로 일하는 시스템이 되고 있다.

그 외에도 Quant 3 VL8B-Instruct와 Kimik A 2.5의 통합이 이뤄졌으며, 앤스로픽은 비용 관리를 위해 더 세밀한 토큰 추적 기능을 도입했다. 인프라 확장세도 가파르다. SpaceX는 AI 파트너십을 확대하고 있으며, Callosum은 여러 AI 시스템 사이에서 요청을 최적으로 배분하는 '자동 모델 라우팅' 기능을 선보였다. 결국 핵심은 성능을 넘어 '얼마나 효율적으로 운영하느냐'의 싸움으로 옮겨가고 있다.

0180년 묵은 수학 난제 해결 — 오픈AI, 인간의 직관을 넘어섰다

인공지능이 단순한 정보 검색의 단계를 넘어 진짜 '추론'의 영역으로 들어섰다. 이번 주 오픈AI는 내부 모델을 통해 80년 동안 풀리지 않았던 수학 난제를 해결하며 그 가능성을 증명했다. 수학자 폴 에르되시가 제시한 이 문제는 기하학적 추론 능력을 측정하는 핵심 척도였다. 인간의 직관이 80년간 닿지 못한 곳에 AI가 먼저 도착한 셈이다.

문제의 핵심은 평면 위에 점을 어떻게 배치해야 거리가 정확히 1인 쌍을 가장 많이 만들 수 있느냐는 것이었다. 지난 80년간 수학계의 지배적인 가설(conjecture)은 정사각형 격자 구조가 가장 효율적이라는 믿음이었다. 쉽게 말해, 평면 위에 특정 길이의 연결선을 최대한 많이 만들려면 바둑판 모양으로 점을 찍는 것이 최선이라고 생각한 것이다.

오픈AI의 내부 모델은 더 효율적인 배치 방식을 찾아내며 이 오랜 믿음을 깨뜨렸다. 모델은 일반적인 2차원 논리에 갇히지 않고, 고차원 수학을 활용해 복잡한 구조를 설계한 뒤 이를 다시 2차원 평면으로 펼치는 방식을 사용했다. 이 정교한 접근법을 통해 AI는 기존 격자 구조보다 더 많은 쌍을 만들어냈고, 결국 기존 가설이 틀렸음을 증명했다. 기존의 상식을 완전히 뒤집은 결과다.

이번 성과는 AI가 추상적 논리를 다루는 방식이 근본적으로 변했음을 의미한다. 저차원 문제를 풀기 위해 고차원 수학을 도구로 활용한 것은, 최고 수준의 수학자들이 보여주는 창의적 추론 능력과 매우 흡사하다. 이제 AI는 단순한 계산 보조 도구가 아니다. 기하학 같은 기초 과학 분야에서 세대를 이어온 난제를 직접 해결하며 이론적 발견을 주도하는 핵심 주체가 될 것이다. 계산기가 아니라 발견자가 된 것이다.

02영상 기반 AI가 GPT 5.2와 제미나이 2.5의 성능을 앞질렀다

AI 시스템이 단순히 텍스트를 주고받는 수준을 넘어, 웹 페이지를 직접 ‘보고’ 상호작용하는 시각적 탐색 능력이 비약적으로 발전하고 있습니다. 최근 연구팀은 여러 종류의 AI 모델을 조합하는 새로운 방식을 통해, 업계 최고 수준인 GPT 5.2와 제미나이 2.5의 성능을 각각 18%, 25% 격차로 뛰어넘는 성과를 냈습니다. 이는 웹 기반 AI의 미래가 거대한 단일 모델 하나에 있는 것이 아니라, 각 분야에 특화된 모델들이 협력하는 팀 단위 운영에 있음을 시사합니다.

이번 성능 향상의 핵심은 하나의 모델이 모든 작업을 도맡는 기존의 획일적인 방식에서 벗어난 데 있습니다. 연구팀은 웹 탐색 과정을 여러 단계로 나누었습니다. 화면에 무엇이 있는지 파악하는 ‘시각적 추론’과 글의 내용을 이해하는 ‘텍스트 추론’으로 문제를 분리한 것입니다. 각 단계마다 필요한 역량이 다르기에, 오픈소스와 폐쇄형 영상 행동 언어 모델을 적절히 섞어 사용했습니다. 적재적소에 알맞은 모델을 배치함으로써, 최고 성능 모델과 맞먹거나 오히려 더 높은 정확도를 구현해 낸 것입니다.

이처럼 여러 모델을 조합하는 전략은 스스로 행동하는 복잡한 AI 시스템을 구축하는 핵심 기술로 자리 잡고 있습니다. 개발자들은 기본적인 구성 요소에는 가볍고 비용이 저렴한 Gemma 4 같은 모델을 사용하고, 가장 어려운 작업에만 고성능의 비싼 모델을 투입할 수 있습니다. 이를 실무에서 구현하려면 매끄러운 ‘대체 시스템(fallback system)’이 필수입니다. 고성능 모델의 처리 용량이 꽉 차거나 토큰 제한에 걸리면, 관리 인프라가 자동으로 요청을 ‘플래시(flash)’ 버전이나 로컬 모델로 넘겨 작업이 중단되지 않게 만드는 방식입니다.

물론 이러한 발전에도 불구하고, 시스템을 검증하는 과정은 여전히 큰 걸림돌입니다. AI가 실제 혹은 가상 웹 환경을 어떻게 탐색하는지 평가하려면, 독립적인 테스트 환경을 구축하는 과정에서 발생하는 기술적 부담이 만만치 않기 때문입니다. 특정 문제를 평가하기 위해 필요한 ‘샌드박스(독립된 시험 환경)’를 세팅하는 것은 이 과정에서 가장 까다로운 작업 중 하나입니다. 하지만 복잡한 시각적 과제를 다루기 쉬운 단계로 쪼개어 처리하는 능력은, AI가 향후 개방형 웹을 다루는 방식을 근본적으로 바꾸어 놓을 것입니다.

03AI 모델이 돈을 벌기 시작했다 — '무제한 요금제'가 사라지는 이유

AI 개발의 흐름이 벤처 캐피털의 자본을 태우는 단계에서 지속 가능한 수익을 내는 단계로 넘어가고 있다. 앤스로픽이 AI 연구소 중 최초로 분기 흑자 달성을 예상하며 그 신호탄을 쐈다. 물론 매출 인식 방식이나 스페이스X(SpaceX)와의 파트너십을 통한 저렴한 컴퓨팅 자원 확보 같은 변수가 있지만, 업계의 운영 방식이 근본적으로 바뀌고 있다는 점은 분명하다. 그동안 AI 기업들은 소수의 헤비 유저 비용을 라이트 유저가 메워주는 '보조금 시대'의 월정액 요금제에 의존해 왔다. 자본 투입으로 버티던 시대가 끝났다.

하지만 복잡한 업무를 스스로 처리하는 자율형 AI 도구, 이른바 '토큰 먹는 하마'들이 등장하며 월정액 모델은 한계에 부딪혔다. AI가 처리하는 텍스트 기본 단위인 토큰(token) 소모량이 고정된 월 이용료를 훨씬 상회하기 때문이다. 시장은 이제 쓴 만큼 내는 '사용량 기반 과금 시대'로 빠르게 전환하고 있다. 앤스로픽은 사용자가 비용을 관리할 수 있도록 어떤 자율형 도구나 플러그인이 토큰을 가장 많이 쓰는지 상세히 보여주는 분석 도구를 최근 도입했다. 효율이 곧 비용이 되는 구조다.

요금제 변경의 배경에는 폭발적인 수요가 있다. 구글의 경우 올해 월간 토큰 처리량이 지난해 5월 480조 개에서 3.2경 개로 700%나 급증했다. 다만 효율성이 개선되면서 토큰 제공 비용은 오히려 낮아지는 추세다. Cursor의 Composer 2.5 같은 도구는 최신 모델 수준의 성능을 내면서도 비용을 10~60배나 낮출 수 있음을 증명했다. 앤스로픽은 여기서 한발 더 나아가 안드레 카파시(Andre Karpathy)를 영입해 '재귀적 자기 개선(recursive self-improvement)' 팀을 꾸렸다. 클로드(Claude)가 스스로의 사전 학습 과정을 가속화하고 연구하는, 즉 AI가 AI를 만드는 전략이다. 결국 AI가 스스로를 최적화하는 단계로 진입했다.

04AI가 24시간 일하는 시대, 개발자는 '지휘자'가 된다

현대 소프트웨어 개발 방식이 바뀌고 있다. 예전에는 개발자 혼자 깊게 몰입해 코드를 짰다면, 이제는 여러 대의 자율형 AI 에이전트를 동시에 부리는 '에이전트 지휘(agent choreography)'의 시대로 접어들었다. 여기서 새로운 불안감이 등장했다. 바로 'AI 작업 시간 상실에 대한 공포(FOMAT, Fear of Missing Agent Time)'다. 자리를 비운 사이 AI가 중요한 진전을 이뤘거나 결정적인 통찰을 찾아냈을 때, 이를 놓칠까 봐 걱정하는 것이다. 개발자들은 이제 휴식 시간에도 AI의 상태를 확인하고 방향을 수정할 수 있는 시스템을 구축하고 있다. AI가 시간과 장소에 상관없이 계속해서 결과물을 만들어내게 하기 위해서다. AI가 멈추지 않게 만드는 것이 핵심이다.

효율적인 협업을 위해 개발자들은 여러 도구를 섞어 쓰고 문서를 철저히 관리한다. 예를 들어 전사적 자원 관리(ERP) 시스템을 만들 때, 전체적인 설계는 클로드 코드로 잡고 세부 구현은 Codex에 맡기는 식이다. 작업 흐름(workflow)의 시작은 마크다운(Markdown)이라는 단순 텍스트 형식의 목표 문서다. 여기에 '직원 16명의 회사'라는 구체적인 비즈니스 상황을 적어 AI에게 맥락을 제공한다. 또한, 기능이 누락되는 것을 막기 위해 JSON 형식의 체크리스트를 기술 가이드로 활용한다. AI가 단계를 건너뛰지 않고 모든 과업을 체계적으로 완수하도록 강제하는 장치다. 꼼꼼한 가이드가 AI의 실수를 막는다.

논리적인 구조 외에 시각적 완성도와 운영 품질을 높이는 제약 조건도 설정한다. 구조적 일관성을 주는 shadcn/ui 라이브러리와 협업 툴 ClickUp의 디자인 스타일을 참고한 문서를 함께 제공해, AI가 전문가 수준의 사용자 인터페이스(UI)를 만들게 유도한다. 자동화 수준은 더 높였다. AI 에이전트가 작업을 마칠 때마다 프로젝트 문서를 자동으로 업데이트하는 스크립트(hooks)를 적용했다. 인프라 측면에서는 Docker Compose를 사용해 PostgreSQL 데이터베이스를 가상 컨테이너에 분리해 관리하며, 배포 중 무단 접속 위험을 줄이기 위해 @goldenlab.co.kr 같은 특정 회사 이메일 도메인으로만 시스템 접근을 제한해 보안을 강화했다. 이제 개발은 코딩이 아니라 시스템 설계다.

05AI가 코드를 나누어 처리하니, 비용은 18배 줄고 속도는 빨라졌다

기업들이 모든 업무를 거대한 단일 AI 모델 하나에만 맡기면 운영 비용이 치솟고 처리 속도도 느려지기 마련입니다. 이제는 여러 특화 모델을 조합해 업무를 나누어 처리하는 방식이 효율적인 대안으로 떠오르고 있습니다. 메모리 사용량을 줄이는 양자화(quantization) 기술로 속도를 높인 Quant 3 VL8B-Instruct 모델을 Kimik A 2.5와 결합하면, 최상위권 모델과 대등한 지능을 유지하면서도 운영 비용을 대폭 낮출 수 있습니다. 이는 하나의 모델이 모든 것을 해결하던 방식에서 벗어나, 적재적소에 맞는 도구를 골라 쓰는 모듈형 시스템으로의 전환을 의미합니다.

이러한 결합의 실질적인 이점은 사람이 웹사이트를 이용하듯 AI가 화면을 보고 조작하는 시각적 웹 탐색 분야에서 두드러집니다. Quant 3 VL8B-Instruct와 Kimik A 2.5를 함께 사용하면 Kimi 단독으로 구동할 때보다 처리 속도가 1.3배 빠릅니다. 비용 측면에서는 더욱 놀라운 결과가 나타나는데, GPT 5.2 하나만 사용할 때보다 운영 비용이 18배나 저렴합니다. 기업 입장에서는 거대 폐쇄형 모델의 막대한 비용 부담 없이도 복잡한 자동화 업무를 대규모로 확장할 수 있는 새로운 경제적 기회가 열린 셈입니다.

이처럼 높은 효율성이 가능한 이유는 시각적 웹 탐색이 단일한 작업이 아니기 때문입니다. 웹 탐색은 페이지 레이아웃을 파악하는 시각적 추론과 글자 정보를 처리하는 텍스트 추론 등 서로 다른 지능을 요구하는 여러 단계가 섞여 있는 복합적인 과정입니다. 영상 기반의 행동 언어 모델들을 적절히 조합한 이번 통합 방식은 영상 웹 환경(Video Web Arena) 성능 시험에서 기존 최고 수준의 모델들을 앞질렀습니다. 구체적으로 GPT 5.2보다는 18%, 제미나이 2.5보다는 25% 더 높은 성과를 냈으며, 이는 특화된 모델들이 팀을 이룰 때 거대한 단일 모델보다 더 뛰어난 능력을 발휘할 수 있음을 증명합니다.

06앤스로픽, AI 비용의 주범을 찾아내는 토큰 추적 기능 도입

기업들이 AI를 대규모로 도입할 때 가장 큰 고민은 비용 예측이 어렵다는 점입니다. 특히 정액제에서 사용한 만큼 비용을 지불하는 종량제로 전환하는 기업이 늘면서, 어디서 비용이 새고 있는지 파악하는 것이 중요해졌습니다. 앤스로픽은 최근 개발자가 AI 시스템의 어느 부분에서 자원을 가장 많이 소모하는지 정밀하게 확인할 수 있는 도구를 선보였습니다. 이제 개발자는 간단한 명령어 하나로 예상보다 청구서 금액이 치솟는 원인을 찾고, 비용을 갉아먹는 ‘토큰 먹보’를 즉시 잡아낼 수 있습니다.

앤스로픽은 토큰 사용량을 세밀하게 분석해 주는 `/usage` 명령어를 새롭게 도입했습니다. AI 분야에서 토큰은 모델이 정보를 처리하는 기본 단위이며, 토큰을 많이 쓸수록 비용도 비례해서 늘어납니다. 이 명령어를 사용하면 개발자는 시스템 전체의 토큰 사용 현황을 기능별로 상세히 보고받을 수 있습니다. 특히 이 도구는 AI가 가진 개별 기술, 자율 행동형 에이전트(autonomous agents), 외부 연결 도구(plugins), 그리고 외부 데이터와 연결하는 표준 규격(Model Context Protocols) 등 각 요소별로 사용량을 분리해 추적합니다. 덕분에 특정 외부 도구가 비효율적으로 작동하는지, 혹은 특정 에이전트가 무한 반복하며 자원을 낭비하고 있는지 명확히 구분할 수 있습니다.

산업계가 사용량 기반의 비용 체계로 빠르게 이동하는 상황에서 이러한 투명성은 필수적입니다. 초기 실험 단계에서는 비용이 적게 드는 것처럼 보여도, 모델을 대규모로 운영하면 예상보다 훨씬 많은 운영비가 발생하기 때문입니다. 정밀한 추적 기능이 없다면 개발자는 전체 비용이 높다는 사실만 알 뿐, 특정 기능의 문제인지 아니면 시스템 설계 자체의 결함인지 알 길이 없습니다. 앤스로픽은 이번 기능으로 개발자에게 작업 흐름(workflow)을 최적화하고, 비용 대비 효율이 낮은 요소를 솎아내며, AI 도입의 장기적인 재무 타당성을 정확히 계산할 데이터를 제공합니다. 이제 토큰 관리는 막연한 운영 비용에서 관리 가능한 공학적 지표로 바뀝니다.

07스페이스X, 로켓 넘어 AI 데이터센터의 핵심 공급자로 변신

스페이스X가 로켓과 위성 기업을 넘어 AI 인프라 시장의 핵심 플레이어로 자리 잡고 있습니다. 고성능 AI를 구동하는 데 필요한 막대한 컴퓨팅 자원을 공급하며, 앤스로픽과 같은 기업이 AI 모델을 사용자에게 원활하게 제공하는 '모델 서빙(model serving)'의 기술적 난제를 해결하도록 돕고 있습니다. 이는 AI를 구동하는 물리적 하드웨어와 데이터센터가 알고리즘 자체만큼이나 전략적으로 중요해졌음을 의미하며, 우주 탐사 기업이었던 스페이스X가 글로벌 AI 경제의 근간을 지탱하는 기둥으로 거듭나고 있음을 보여줍니다.

앤스로픽은 스페이스X와의 협력을 강화하며 자사 모델을 운영할 인프라 규모를 대폭 확장하고 있습니다. 앤스로픽의 최고 컴퓨팅 책임자(Chief Compute Officer) 톰 브라운은 최근 '콜로서스 1(Colossus 1)'과 '콜로서스 2(Colossus 2)'라 불리는 대규모 데이터센터를 통해 운영 규모를 키우고 있다고 밝혔습니다. 이 시설들은 최신 AI의 무거운 작업 흐름(workload)을 처리하는 데 필수적인 원시 처리 능력, 즉 컴퓨팅 파워를 제공합니다. 스페이스X가 제공하는 전용 자원을 활용함으로써, 앤스로픽은 전 세계적으로 치솟는 AI 서비스 수요에 대응하며 성능을 유지하고 역량을 키울 수 있게 됐습니다.

이러한 인프라 확장은 대규모 AI 모델을 운영하는 실제 비용이 초기 실험 단계에서 예상했던 것보다 훨씬 높다는 냉혹한 현실에서 비롯됐습니다. AI 개발사들에게 여러 전용 데이터센터를 넘나들며 효율적으로 규모를 키우는 능력은 이제 단순한 기술적 우위가 아니라 생존을 위한 재무적 필수 조건이 됐습니다. 모델이 복잡해질수록 이를 구동하는 데 필요한 처리 에너지는 성장을 가로막는 가장 큰 병목 구간이 됩니다. 스페이스X를 통해 특화된 인프라를 확보한 앤스로픽은 운영 비용을 안정화하고 서비스의 지속 가능성을 높이는 데 주력하고 있습니다. 이번 협력은 성공적인 AI 기업일수록 기존 클라우드 컴퓨팅의 한계와 비용 문제를 극복하기 위해 거대하고 독립적인 하드웨어 기반을 확보해야 한다는 업계의 거대한 흐름을 잘 보여줍니다.

08칼로섬, AI 모델을 상황에 맞춰 골라 쓰는 자동 배분 도입

칼로섬(Callosum)은 모든 요청을 하나의 거대 모델로 처리하던 기존 방식에서 벗어나 AI 운영 효율을 높이고 있습니다. 이 회사는 작업 난이도에 따라 AI 모델을 자동으로 연결해주는 배분 계층을 도입했습니다. 단순한 작업은 가벼운 모델이 맡아 비용과 시간을 줄이고, 복잡한 문제는 고성능 시스템이 처리하게 만든 것입니다. 이러한 결정 과정의 자동화는 작업별로 최적의 소프트웨어 모델과 하드웨어 자원을 효율적으로 배분하는 결과를 낳았습니다.

이번 시스템은 과거의 운영 방식을 크게 개선한 결과물입니다. 초기 칼로섬은 사람이 직접 어떤 작업에 어떤 모델을 쓸지 정하는 맞춤형 모델 매핑 방식을 사용했습니다. 하지만 이제는 작업의 복잡도를 실시간으로 파악하는 자동화 계층이 그 자리를 대신합니다. 덕분에 시스템은 AI가 수행할 목표를 하나의 덩어리가 아닌, 시각적 추론이나 텍스트 분석처럼 각기 다른 성격의 단계들로 분해해 처리합니다. 각 단계에 딱 맞는 전문 도구를 투입하는 방식입니다.

이러한 배분 전략의 실질적인 성과는 시각적 웹 탐색 분야에서 두드러집니다. 칼로섬은 웹 탐색을 단일 과정으로 보지 않고 여러 추론 단계로 나누어, 공개형 모델과 폐쇄형 비디오 행동 언어 모델을 적절히 혼합해 사용합니다. 이처럼 전문화된 배분 방식은 최상위권 모델들의 성능을 뛰어넘는 결과를 냈습니다. 비디오 웹 환경 테스트에서 칼로섬의 방식은 GPT 5.2보다 18%, 제미나이 2.5보다 25% 높은 성능을 기록했습니다. 하나의 범용 지능에 의존하는 대신 다양한 모델에 일을 지능적으로 분배함으로써, 시스템은 더 높은 정확도와 전반적인 성능 향상을 이뤄냈습니다.

09제미나이 앱 사용자 9억 명 돌파, AI가 일상의 필수재가 됐다

구글의 인공지능 전략이 중대한 전환점을 맞았다. 제미나이(Gemini) 애플리케이션의 월간 활성 사용자(MAU)가 9억 명을 넘어섰다. 이는 일반 소비자들이 고도화된 기계 학습 도구를 받아들이는 속도가 비약적으로 빨라졌음을 의미하며, 구글이 글로벌 AI 시장의 주도권을 확실히 쥐었음을 보여준다. 이번 성과로 구글은 그동안 업계 표준으로 여겨졌던 챗GPT(ChatGPT)와의 사용자 격차를 사실상 지워버렸다. 이제 최첨단 AI 기술은 실험실이나 개발자들의 전유물이 아니라, 전 세계 10억 명에 가까운 사람들의 일상적인 디지털 습관으로 자리 잡았다.

이번 사용자 급증은 AI 시장의 주도권 싸움이 새로운 국면에 접어들었음을 시사한다. 외부에서는 구글의 AI 생태계 전략이 다소 산만하다는 평가도 있었지만, 제미나이로 몰려드는 압도적인 사용자 수는 이 기술이 이미 필수 도구가 되었음을 증명한다. 제미나이와 챗GPT의 격차가 좁혀졌다는 것은 AI 시장이 단순히 신기한 기술을 보여주는 단계를 넘어, 실질적인 활용이 중심이 되는 성숙기로 진입했음을 뜻한다. 사람들이 업무를 처리하고, 소통하며, 일상을 관리하는 소프트웨어 전반에 AI가 녹아들면서, 이제는 얼마나 많은 사용자를 꾸준히 붙잡아두느냐가 성공의 핵심 지표가 됐다.

결국 이러한 성장은 AI가 현대인의 디지털 경험에서 떼려야 뗄 수 없는 기반 기술이 되고 있다는 흐름을 보여준다. 구글은 소비자와 접하는 서비스들을 고도화하며, 기술의 가능성을 과시하는 것에서 벗어나 전 세계 사용자가 믿고 쓸 수 있는 환경을 만드는 데 집중하고 있다. 매달 9억 명이 제미나이를 사용하는 지금, 구글이 짊어진 성능 유지와 신뢰 확보의 무게는 그 어느 때보다 무겁다. 이번 대규모 사용자 확보는 구글의 막대한 AI 인프라 투자가 옳았음을 입증함과 동시에, 앞으로는 누가 더 강력한 도구를 일상 속에 자연스럽게 녹여내느냐에 따라 승패가 갈릴 것임을 예고한다.