전용 AI 칩(Silicon) 도입을 통해 추론 비용을 크게
우버가 1년 치 AI 예산을 단 4개월 만에 모두 소진하며 겪은 비용 충격은 업계의 공통된 고민이다. 범용 칩의 성능에 의존해 높은 비용을 지불하는 기업이 있는 반면, 전용 실리콘을 통해 비용 구조를 재설계하는 기업이 있다. 운영 효율을 확보하는 접근 방식의 차이다.
GPT 5.5는 현재 OpenRouter(AI 모델 API 통합 플랫폼) 기준 가장 비용이 많이 드는 모델로 분류된다. 구체적인 비용은 입력 토큰 100만 개당 5달러, 출력 토큰 100만 개당 30달러로 책정되어 있다. 모델의 성능이 고도화될수록 기업이 지불해야 할 추론 비용의 절대값은 상승한다.
전용 AI 칩 도입은 이러한 비용 부담을 낮추는 직접적인 방법이다. TPU(텐서 처리 장치) 같은 특수 칩을 사용하면 Nvidia H100 GPU보다 30~70% 더 저렴하게 운영할 수 있다. 하드웨어 최적화를 통해 추론 단계의 고정비를 낮추는 방식이다.
Google과 Groq, Cerebras는 AI 전용 칩의 필요성을 인식하고 자체 개발에 집중하고 있다. 특정 연산에 최적화된 칩을 통해 Nvidia H100 중심의 비용 구조에서 벗어나려는 시도다.
오픈 웨이트 모델인 GLM-5.2가 코딩 벤치마크에서 GPT
고성능 모델을 쓰려면 높은 비용을 지불해야 한다는 상식이 깨졌다. 오픈 웨이트 모델(모델의 가중치를 공개해 외부에서 활용 가능한 형태)인 GLM-5.2가 코딩 벤치마크에서 GPT와 Opus를 앞섰다. 이 모델은 성능 면에서 우위를 점했다. 그러면서도 비용은 GPT 5.5의 10분의 1 수준으로 낮췄다. 성능과 비용의 상관관계가 무너진 사례다.
모델 교체에 드는 전환 비용은 사실상 제로에 수렴한다. OpenRouter.ai 같은 AI 게이트웨이 서비스(여러 AI 모델을 하나의 API로 연결해 주는 중개 서비스)가 소비자 전환 장벽을 제거했다. 사용자는 단 몇 초 만에 사용 모델을 변경할 수 있다. 실시간으로 제공업체를 바꾸도록 프로그래밍하는 것도 가능하다. 더 나은 모델이 등장했을 때 소비자가 들이는 시간 투자는 없다. 즉각적인 모델 전환이 가능한 환경이다.
확인해야 할 핵심 지점
예산 집행 속도가 기업의 전략 수립 속도를 앞지르는 현상이 나타나고 있다. 우버는 1년 치 AI 예산을 단 4개월 만에 모두 소진했다. 마이크로소프트와 세일즈포스, 깃허브(Github, 소프트웨어 개발 플랫폼) 또한 직원들이 사용하는 AI 지출을 줄이기 위해 단계적인 조치를 취하고 있다. AI 도입 초기 단계에서 예상치를 상회하는 비용이 발생하며 기업들의 지출 관리 체계가 즉각적으로 작동하기 시작했다.
하드웨어 성능 향상은 클라우드 의존도를 낮추는 결정적 변수가 된다. 4~5년 내에 새로운 칩이 보급되고 RAM(Random Access Memory, 주기억장치) 가격이 하락한다. 새로운 칩셋은 모델을 로컬에서 직접 구동하는 능력을 갖춘다. 이 조건이 충족되면 컴퓨터와 스마트폰에서 AI 모델을 직접 배포하고 실행하는 것이 가능해진다. 외부 서버에 데이터를 보내지 않고 기기 자체에서 연산을 처리하는 방식이다.
로컬 환경의 보편화는 작업의 성격에 따른 처리 경로의 분리를 가져온다. 코드 탭 완성이나 문장 교정, 팩트 체크 같은 단순 작업은 로컬 모델이 전담한다. 복잡한 추론이 필요 없는 기능들이 기기 내부의 자원으로 처리된다. 단순 작업의 로컬 처리는 클라우드 호출 횟수를 직접적으로 줄인다. 사용자는 단순 작업을 위해 매달 비용을 지불하는 유료 구독 서비스의 필요성을 덜 느끼게 된다.
칩셋의 성능과 메모리 가격이라는 물리적 조건이 AI 서비스의 수익 모델을 바꾼다. 클라우드 기반의 구독 경제에서 기기 기반의 로컬 실행으로 서비스 구조가 바뀐다. 이는 기업의 운영 비용 절감과 사용자의 비용 부담 완화라는 결과로 이어진다.
우버가 1년 치 AI 예산을 4개월 만에 소진한 사례는 기존 비용 구조의 한계를 증명한다. GLM-5.2처럼 비용은 10분의 1 수준이면서 성능은 앞서는 모델이 확산되면 모델 간 전환 비용은 제로에 수렴한다.
결국 승부는 모델의 절대 성능이 아닌 비용 최적화 능력에서 갈린다. 단순 작업은 로컬 모델로, 복잡한 추론은 클라우드 모델로 분리해 배치하는 기준을 즉시 적용해야 한다.




