외부 모델 의존 탈피, 자체 LLM 'Base1' 공개한 Base44

자연어 기반 앱 제작을 지원하는 자체 AI 모델을 출시했다

AI 서비스를 구축할 때 외부 API를 연결하는 것만으로 충분할까. 많은 스타트업이 범용 모델의 API를 활용해 빠르게 제품을 출시하는 방식을 택하지만, 최근 Base44(자연어 기반 앱 제작 플랫폼)가 자체 AI 모델을 배포하며 다른 경로를 제시했다. 사용자가 자연어를 통해 앱을 생성하는 과정을 직접 지원하는 모델을 통해 외부 모델에 대한 의존도를 낮추고 서비스 최적화를 꾀하는 방식이다. 범용 모델의 API를 호출하는 대신 자체 모델을 통해 앱 생성 프로세스를 직접 제어한다.

Wix는 1년 전, 설립된 지 6개월 된 8명 규모의 팀이었던 vibe coding(자연어 기반 코딩) 플랫폼 Base44를 8,000만 달러에 인수했다. 인수한 지 1년 만에 자체 AI 모델을 출시하며 기술 내재화에 속도를 내는 모습이다. 이는 단순한 기능 추가를 넘어 모델의 제어권을 완전히 확보함으로써 서비스 특성에 최적화된 성능을 구현하고 운영 효율을 높이려는 목적이다.

스웨덴 스타트업 Lovable(외부 LLM 기반 앱 제작 서비스)은 외부 모델에 의존하며 지난여름 시리즈 A 라운드에서 유니콘 기업 지위를 획득했고, ARR(연간 반복 매출) 5억 달러를 달성했다. 반면 ARR 1억 달러를 기록한 Base44는 유통과 데이터, 인프라를 모두 소유하는 수직 통합 전략을 취한다. 외부 모델 의존도를 낮춰 추론 비용과 지연 시간을 최적화함으로써, 범용 모델 사용 시 발생하는 높은 비용 문제를 해결하고 기술적 자립도를 높이려는 전략적 선택이다.

로봇 학습 데이터 병목을 겨냥한 해법

범용 모델의 규모가 크다고 해서 특정 도메인의 효율성까지 보장하는 것은 아니다. 많은 AI 스타트업이 ChatGPT나 Claude 같은 범용 모델의 API를 연결해 서비스를 구축하지만, Base44는 플랫폼 내에서 발생한 수천만 건의 실제 사용자 상호작용 데이터셋을 기반으로 Base1을 개발하고 학습시켰다. Base1은 Base44가 내놓은 첫 번째 자체 LLM(거대언어모델) 버전이다. 외부 API에 의존하는 대신 플랫폼 내부의 데이터를 직접 학습 자산으로 활용해 모델을 구축했다.

데이터 확보 경쟁은 이제 단순한 스타트업 간의 대결을 넘어 프런티어 AI 랩으로 확장되고 있다. SpaceX 소속의 xAI(Cursor 및 Grok의 모회사)와 Claude Code를 출시한 Anthropic이 앱 제작을 위한 데이터와 피드백 루프를 확보하며 Base44의 영역으로 진입하고 있다. 이들은 바이브 코딩(vibe coding, 자연어 설명과 피드백만으로 앱을 제작하는 방식) 영역에서 경쟁 중이다. 단순한 모델 파라미터 경쟁을 넘어, 실제 앱 제작 과정에서 발생하는 데이터와 피드백을 누가 더 많이 소유하느냐가 경쟁의 핵심이다.

데이터 소유권과 피드백 루프의 확보 여부가 모델의 실질적인 성능 차이를 만드는 전략적 기준이 된다. 범용 모델의 높은 추론 비용 문제를 해결하고 특정 도메인에서 최적의 성능을 내기 위해서는 자체 모델 구축이 필요한 임계점을 판단하는 것이 중요하다.

확인해야 할 핵심 지점

범용 모델 API를 연결해 빠르게 서비스를 구축하는 팀이 있는 반면, 인프라 전체를 직접 소유해 비용 구조를 설계하는 팀이 있다. Base44는 수천만 건의 실제 사용자 상호작용 데이터를 학습시킨 자체 LLM(거대언어모델) Base1을 출시했다. 창립자 Maor Shlomo는 모델을 전체 스택의 일부로 직접 훈련하고 소유함으로써 지연 시간과 비용, 효율성 측면에서 더 많은 최적화가 가능하다고 밝혔다. 특히 컴퓨팅 및 추론 비용에 대한 직접적인 제어권을 확보해 시간이 흐를수록 구조적으로 더 강력한 마진 프로필을 구축한다는 방침이다. 이는 외부 모델 제공사에 지불하는 비용을 줄이고 내부 자원을 효율적으로 배분하는 전략이다.

기업 고객들은 모든 사례에 최신 모델을 적용하는 방식에서 낮은 투자 대비 효율(ROI)을 경험하고 있다. Jonathan Userovici는 성능을 유지하면서 비용 급증을 막기 위해 최적화된 모델 구성을 요구하는 수요가 증가하고 있다고 설명했다. 이에 따라 적절한 모델을 선택해 배치하는 오케스트레이션(여러 모델을 효율적으로 조합하고 관리하는 기술) 및 최적화 인프라 구축이 필수적인 상황이다. 대다수 사례에서 기존과 동일하거나 유사한 성능을 유지하면서도 비용이 폭증하지 않도록 모델을 선별하는 체계가 요구된다. 추론 비용이 서비스의 핵심 변수가 되면서, 자체 모델 소유 여부가 비용 효율성과 성능을 동시에 제어하는 전략적 임계점이 된다.

범용 모델 API를 연결해 서비스를 구축하는 방식은 초기 진입 속도는 빠르지만 추론 비용의 한계가 명확하다. Base44는 수천만 건의 상호작용 데이터를 학습시킨 Base1을 통해 데이터와 인프라를 모두 소유하는 수직 계열화 구조를 택했다. 이는 단순한 기술 자립을 넘어 비용과 지연 시간을 직접 제어하겠다는 전략이다. 이제 기업은 범용 모델의 누적 추론 비용이 자체 모델 구축 비용을 상회하는 임계점을 기준으로 전략적 선택을 내려야 한다. 비용 구조의 통제권 소유 여부가 서비스의 실질적인 생존력을 결정한다.

외부 모델 의존 탈피, 자체 LLM 'Base1' 공개한 Base44

자연어 기반 앱 제작을 지원하는 자체 AI 모델을 출시했다

로봇 학습 데이터 병목을 겨냥한 해법

확인해야 할 핵심 지점

관련 기사