여러 AI 모델을 섞어 쓰는 개발자는 매번 다른 SDK를 설치하고 API 규격을 맞추는 작업에 시간을 쏟는다. 특정 모델의 응답 속도가 느려지거나 장애가 발생했을 때 코드를 수정하지 않고 즉시 다른 모델로 전환하고 싶다는 갈증이 현장에서 계속된다. 이번 주 개발자 커뮤니티에서는 이러한 파편화된 API 환경을 하나로 묶어주는 경량 게이트웨이 도구가 주목받고 있다.

11개 프로바이더 통합과 단일 바이너리 구조

GoModel(Go 언어로 작성된 AI 게이트웨이)은 OpenAI, Anthropic, Gemini, Groq(초고속 추론 칩을 사용하는 AI 가속 플랫폼), xAI(일론 머스크가 설립한 AI 기업)를 포함한 11개 프로바이더를 단일 OpenAI 호환 API로 통합한다. 이 도구는 Go 언어의 특성을 살려 단일 바이너리로 배포되므로 컨테이너 이미지가 매우 가볍고 콜드스타트(애플리케이션이 처음 실행될 때 발생하는 지연 시간)가 빠르다는 특징이 있다. Docker 컨테이너 하나에 API 키를 환경 변수로 전달하면 프로바이더를 자동으로 감지해 즉시 사용할 수 있는 구조다.

지원하는 엔드포인트는 /v1/chat/completions(스트리밍 포함), /v1/responses, /v1/embeddings, /v1/models, /v1/files, /v1/batches 등 OpenAI API의 전체 규격을 그대로 따른다. 만약 게이트웨이가 아직 지원하지 않는 최신 기능이 필요하다면 /p/{provider}/... 경로를 통해 네이티브 API 패스스루(요청을 수정 없이 그대로 전달하는 방식) 기능을 사용할 수 있다. 이를 통해 업스트림 응답을 그대로 전달받아 기능 공백 없이 최신 모델의 성능을 활용하는 것이 가능하다.

2계층 캐시와 인프라 확장성

기존의 LiteLLM(AI 모델 API를 통합 관리하는 라이브러리) 같은 도구는 주로 파이썬 런타임 위에서 동작하여 메모리 사용량과 실행 속도에서 제약이 있었다. GoModel은 이를 Go 언어로 재구현하며 성능 최적화에 집중했다. 특히 응답 속도를 높이기 위해 2계층 캐시 시스템을 내장했다. Layer 1은 요청 본문의 해시 값을 기반으로 정확히 일치하는 요청을 찾아내는 서브밀리초 단위의 조회 캐시이며, Layer 2는 임베딩 벡터의 KNN(가장 가까운 이웃을 찾는 벡터 검색 알고리즘) 검색을 기반으로 한 시맨틱 캐시(의미적으로 유사한 질문을 찾아내는 캐시)다. 이 시맨틱 캐시는 고반복 워크로드에서 60~70%의 적중률을 기록하는 것으로 관찰된다.

벡터 백엔드로는 Qdrant(벡터 데이터를 저장하고 검색하는 데이터베이스), pgvector(PostgreSQL에 벡터 검색 기능을 추가하는 확장 모듈), Pinecone(클라우드 기반 벡터 데이터베이스 서비스), Weaviate(오픈소스 벡터 데이터베이스)를 지원한다. 스토리지 백엔드 역시 선택지가 넓다. 소규모 환경에서는 SQLite(파일 기반의 경량 관계형 데이터베이스)를 통해 설치 즉시 사용할 수 있으며, 대규모 환경에서는 PostgreSQL(강력한 기능을 가진 오픈소스 관계형 데이터베이스)이나 MongoDB(문서 지향 NoSQL 데이터베이스)로 교체하여 확장할 수 있다. 동일 프로바이더의 복수 인스턴스를 등록할 때는 OPENAI_EAST_API_KEY와 같이 접미사를 붙인 환경 변수를 사용해 관리한다.

개발자가 바로 체감하는 변화는 운영 가시성의 확보와 인증 관리의 단순화다. 내장된 관리 대시보드 UI를 통해 토큰 사용량, 비용 추적, 감사 로그, 프로바이더 상태 및 모델 오버라이드 설정을 한눈에 확인할 수 있다. 또한 Prometheus(시스템 모니터링 및 알람 도구) 메트릭과 가드레일 파이프라인 기능을 환경 변수로 활성화해 옵저버빌리티(시스템 내부 상태를 알 수 있게 하는 관측 가능성)를 높였다. API 인증은 GOMODEL_MASTER_KEY 하나로 통합 관리하며, MIT 라이선스로 제공되어 기업 내부 인프라에 제약 없이 도입할 수 있다.

향후 0.2.0 로드맵에서는 인텔리전트 라우팅(요청의 특성에 따라 최적의 모델로 자동 배분하는 기능)과 DeepSeek V3, Cohere 모델 추가가 예정되어 있다. 또한 user_path별 예산 관리와 클러스터 모드 지원을 통해 단순한 게이트웨이를 넘어 AI 인프라 관리 플랫폼으로의 확장을 꾀하고 있다.

AI 모델의 교체 주기보다 인프라의 교체 주기가 더 길어야 한다는 원칙을 실현한 도구다.