구독 할당량을 활용한 API 비용 최적화 구조

AI 기능을 외부 서비스와 연결해 사용할 때 발생하는 토큰 단위의 API 비용은 사용량이 늘어날수록 예측이 어렵다. 이번에 개발된 어댑터는 이 비용 구조를 이미 지불한 구독 할당량 체계로 전환한다.

Honcho(AI 에이전트 프레임워크) 백엔드를 대체하는 어댑터를 통해 ChatGPT 구독 서비스에 포함된 Codex(코드 생성 AI 모델) 할당량을 API 요청처럼 사용하게 구현했다. 이를 통해 추가 과금 없이 구독 범위 내에서 AI 에이전트의 연산 자원을 확보했다.

구동 환경은 ARM Ubuntu 기반의 MSI EdgeXpert GB10 계열 1TB 모델에서 검증했다. Windows나 Mac 등 다른 운영체제에서의 동작 여부는 확인하지 않았으나, 특정 하드웨어와 OS 조합에서 구현 가능함을 입증했다. 이로써 고비용 API 호출 없이 AI 에이전트의 메모리 기능을 로컬이나 구독 기반으로 구축하는 경로를 확인했다.

OAuth 인증을 통한 OpenAI 엔드포인트 응답 구현

구체적인 구현을 위해 Honcho의 기본 설정인 OpenAI GPT 5.4 mini 모델 요청 부분을 Hermes Agent(AI 에이전트 도구)의 Codex OAuth 코드(사용자 인증 토큰)를 사용하도록 변경했다. 구독형 서비스의 접근 권한을 활용해 OpenAI 엔드포인트(API 접속 지점) 응답 형식을 그대로 출력함으로써, API 과금 체계를 거치지 않고 구독 할당량을 사용한다.

데이터 벡터화를 위한 임베딩 과정은 로컬 환경으로 완전히 분리했다. OpenAI 임베딩 모델 대신 llama.cpp(LLM 로컬 실행 라이브러리)와 BGE-M3 fp16.gguf 모델을 사용한다. 임베딩 차원은 공개된 모델의 가용성을 고려해 기본 1536 차원 대신 BGE-M3의 1024 차원을 적용했다.

이 구성은 로컬 임베딩과 구독 기반 응답을 결합해 OpenAI의 고비용 임베딩 모델을 대체하면서도 응답 형식의 호환성을 유지하는 구조다.

GPT 5.5 모델 연결 및 로컬 임베딩 최적화

백엔드 모델은 Codex 구독 기반의 GPT 5.5를 활용했으며, 추론 노력(Reasoning Effort) 설정은 Low로 맞췄다. 인프라 구축을 위해 구독 계정을 API처럼 연결하는 honcho-codex-gateway 도커 스택을 설치하고, 이를 로컬 AI 오케스트레이터인 honcho 도커 스택과 연결했다. 게이트웨이가 구독 계정의 인증을 처리해 API 요청 형태로 변환해 전달하는 방식이다.

데이터 처리 효율을 높이기 위해 BGE-M3(다국어 임베딩 모델)에서 직접 토큰화(Tokenizing)를 수행하는 청킹(Chunking) 방식을 적용했다. 이는 honcho의 기본 토큰화 방식과 BGE-M3의 기준이 달라 발생하는 텍스트 길이 문제를 해결하기 위함이다. 임베딩 모델 단계에서 길이를 조정해 입력 값의 불일치를 해결함으로써 구독 기반 모델에서도 끊김 없는 코드 생성을 구현했다.

결과적으로 Docker 게이트웨이와 BGE-M3 로컬 임베딩을 통해 추가 과금 없이 AI 에이전트의 메모리 기능을 완성했다. 개발자는 이제 토큰 계산이 아닌 로컬 임베딩 처리 기준에 따라 시스템을 설계할 수 있다.

월정액 구독은 이제 단순한 인터페이스 이용권을 넘어 API 호출의 실질적 대안이 됐다. Docker 게이트웨이와 BGE-M3 로컬 임베딩을 엮으면 추가 과금 없이 AI 에이전트의 메모리 기능을 완성할 수 있다. 고비용 API 체계를 우회해 구독료만으로 상용 수준의 자동화 시스템을 구축하는 실무적 경로가 확보됐다. 개발자는 이제 토큰 계산이 아닌 로컬 임베딩 처리 기준에 따라 시스템을 설계하면 된다.