이번 주 Hugging Face Hub(AI 모델과 데이터셋을 공유하는 오픈 소스 플랫폼)의 모델 페이지를 살펴보면 추론 제공자 선택 창에 새로운 이름이 추가되었다. 개발자가 특정 모델의 성능을 테스트하기 위해 직접 GPU 서버를 구축하거나 복잡한 환경 설정을 거치지 않고도, 클릭 몇 번으로 서버리스 추론을 실행할 수 있는 환경이 확장된 장면이다.
DeepInfra의 100개 모델 카탈로그와 SDK 통합
DeepInfra(서버리스 AI 추론 플랫폼)가 Hugging Face Hub의 공식 인퍼런스 프로바이더(모델 추론을 위한 컴퓨팅 자원을 제공하는 업체)로 합류했다. 이 플랫폼은 현재 100개 이상의 모델 카탈로그를 보유하고 있으며, 초기 통합 단계에서 DeepSeek V4, Kimi-K2.6, GLM-5.1 같은 오픈 웨이트 LLM(가중치가 공개된 대규모 언어 모델)의 대화 및 텍스트 생성 작업을 지원한다. 텍스트-이미지, 텍스트-비디오, 임베딩(데이터를 벡터로 변환하는 기술) 등의 추가 작업 지원은 순차적으로 업데이트될 예정이다.
기술적으로는 Python용 `huggingface_hub` 1.11.2 버전 이상과 JavaScript용 `@huggingface/inference` 라이브러리를 통해 접근 가능하다. DeepInfra 공식 페이지에서 전체 지원 모델 목록을 확인할 수 있으며, 사용자는 Hugging Face 토큰을 통해 인증하면 요청이 자동으로 DeepInfra로 라우팅된다. 비용 측면에서는 Hugging Face PRO 플랜 사용자가 매달 2달러 상당의 추론 크레딧을 제공받으며, 로그인한 무료 사용자에게도 소량의 쿼터(사용량 제한)가 부여된다. 추가적으로 ZeroGPU(Hugging Face에서 제공하는 무료 GPU 가속 환경)와 Spaces Dev Mode(웹 기반 AI 앱 개발 환경)에 대한 접근 권한이 PRO 플랜에 포함된다.
API 키 관리 방식의 변화와 에이전트 연결
예전에는 특정 추론 제공자의 모델을 쓰기 위해 해당 업체에서 API 키를 별도로 발급받고, 코드 내에 전용 엔드포인트 주소를 직접 입력해야 했다. 이제는 Hugging Face Hub의 인증 체계를 그대로 사용하면서 백엔드에서 제공자를 선택하는 라우팅 방식이 도입되었다. 개발자가 체감하는 가장 큰 변화는 Pi, OpenCode, Hermes Agents, OpenClaw 같은 Agent Harnesses(AI 에이전트를 쉽게 구축하게 돕는 프레임워크)에 추가적인 글루 코드(서로 다른 소프트웨어를 연결하는 임시 코드) 없이 DeepInfra 호스팅 모델을 즉시 연결할 수 있다는 점이다.
청구 방식에서도 차이가 관찰된다. 제공자의 API 키를 직접 사용하는 직접 요청의 경우 DeepInfra 계정으로 비용이 청구되지만, Hub를 통한 라우팅 요청은 추가 수수료 없이 제공업체의 표준 API 요율만 적용된다. 이는 개발자가 여러 제공자의 가격을 비교하며 모델을 교체할 때, 코드 수정 범위를 최소화하면서 비용 최적화를 수행할 수 있음을 뜻한다. 상세한 사용법은 전용 문서 페이지를 통해 확인할 수 있다.
모델의 절대적인 성능보다 어떤 인프라에서 가장 저렴하고 빠르게 모델을 띄울 것인가가 개발 생산성의 핵심 지표가 되는 시대다.




