취향의 설계: 핀터레스트가 AI 비용을 90% 줄인 방법

범용 AI가 마주한 확장성의 벽

많은 기업이 AI 도입 초기에는 프런티어 모델 API를 연결하는 방식을 택합니다. 바닥부터 모델을 만들 필요 없이 이미지와 텍스트 이해 능력을 즉시 갖출 수 있어 가장 빠른 길이죠. 소규모 애플리케이션이라면 이 정도 타협은 충분히 합리적입니다.

하지만 월간 활성 사용자(MAU)가 6억 2천만 명에 달하는 플랫폼이라면 이야기가 달라집니다. 이 정도 규모에서는 'API 세금'이라 불리는 막대한 운영 비용과 지연 시간(Latency)이 치명적인 약점이 되거든요. 수백만 명의 사용자가 즉각적인 반응을 기대하는 환경에서 밀리초(ms) 단위의 지연은 곧 사용자 이탈로 이어집니다.

비용 외에도 질적인 간극이 존재합니다. 범용 모델은 광범위한 데이터로 학습되어 모든 분야에서 적당한 성능을 내지만, 시각적 발견 플랫폼의 핵심인 '취향'이라는 미묘한 영역까지 잡아내지는 못합니다.

지연 시간의 늪과 취향의 문제

이미지를 보고 해석하는 '비전 인코더'는 범용 모델일수록 니치한 미학적 기준을 정밀하게 구분하지 못하는 경향이 있습니다. 예를 들어 '의자'라는 객체는 식별하지만, 사용자의 구체적인 스타일인 '미드센추리 모던'과 '스칸디나비안 미니멀리즘'의 차이를 핀터레스트의 기준에 맞게 구분하는 데는 서툽니다.

이런 전문성의 부재는 곧 성능 저하로 이어지는데요. 핀터레스트는 최적화되지 않은 임베딩을 사용했을 때, 맞춤형 방식보다 추론 지연 시간이 무려 20배나 더 길다는 사실을 발견했습니다. 실제 서비스 환경에서 이 정도 차이는 사용자가 느끼기에 '느리고 답답한' 기능이 된다는 뜻이죠.

결국 이 미묘한 시각적 뉘앙스를 매핑하는 것이 핵심 과제였습니다. 핀터레스트는 150억 개의 보드가 담긴 '테이스트 그래프(Taste Graph)'를 보유하고 있습니다. 이 방대한 인간의 선호도 네트워크를 실시간 검색 가능한 형태로 변환하려면, 단순히 모델 크기를 키우는 게 아니라 데이터를 표현하는 방식 자체가 더 정교해져야 했습니다.

정밀 수술: 비전 레이어만 교체하기

핀터레스트는 거대한 멀티모달 모델을 처음부터 다시 학습시키는 대신 '모듈형 전략'을 선택했습니다. LLM이라는 '두뇌'는 그대로 두고, 이미지를 보는 '눈'만 바꾼 셈입니다.

먼저 알리바바(Alibaba)가 개발한 오픈소스 멀티모달 LLM인 Qwen3-VL(큐웬3-VL)을 기반으로 삼았습니다. 그리고 알리바바가 제공하는 기본 비전 인코더 대신, 핀터레스트가 자체 개발한 멀티모달 임베딩 레이어인 PinCLIP(핀클립)을 이식했습니다. 임베딩 레이어는 시각적 픽셀을 LLM이 처리할 수 있는 수학적 언어로 변환해 주는 번역기 역할을 합니다.

이런 정밀한 교체 작업을 통해 탄생한 것이 특화된 쇼핑 어시스턴트 '내비게이터 1(Navigator 1)'입니다. 비전 레이어만 바꿨을 뿐인데, 모델 전체를 재학습시키지 않고도 Qwen3-VL의 일반적인 추론 능력과 테이스트 그래프의 고유한 시각적 데이터를 완벽하게 결합할 수 있었습니다.

규모보다 데이터: 구현 플레이북

이 방식은 파라미터 숫자에만 집착하는 업계의 관행에 의문을 던집니다. Qwen3 모델 제품군은 6억 개부터 2,350억 개까지 파라미터 범위가 넓지만, 성능을 결정짓는 유일한 레버가 모델 크기는 아니거든요.

맷 매드리갈(Matt Madrigal) 핀터레스트 CTO는 "독보적인 데이터로 오픈소스 모델을 파인튜닝할 수 있다면, 데이터 품질이 모델 크기를 압도한다"고 강조합니다. 특히 아파치 라이선스 기반의 오픈소스 모델은 특정 유스케이스에 맞게 가중치를 깊게 커스텀할 수 있다는 점이 큰 장점이죠.

다른 기업들도 여기서 힌트를 얻을 수 있습니다. 수백만 명에게 이미지 기반 추천을 제공하는 서비스라면, 범용 비전 인코더를 커스텀 임베딩 레이어로 교체하는 것만으로도 지연 시간과 비용을 크게 줄일 수 있습니다. 전문 도메인 데이터셋을 가지고 있다면, 거대한 범용 모델을 쓰는 것보다 중소형 오픈소스 모델을 깊게 파인튜닝하는 것이 정확도 면에서 훨씬 유리합니다.

코어 vs 컨텍스트 운영 전략

실제 운영 효율을 높이기 위해 핀터레스트는 '코어(Core) vs 컨텍스트(Context)'라는 계층 구조를 도입했습니다. 실험 속도가 비용보다 중요한 프로토타이핑 단계(컨텍스트)에서는 프런티어 모델 API를 그대로 활용합니다.

반면 실제 사용자가 마주하는 서비스 인터페이스(코어)에서는 커스텀 오픈소스 모델이 전담합니다. 여기에 더해 Qwen3의 '사고(Thinking)' 모드와 '비사고(Non-thinking)' 모드를 동적으로 전환하는 최적화 기법을 적용했는데요.

챗봇 시나리오에서 단순한 질문은 비사고 모드로 라우팅해 즉각적인 응답을 제공하고, 복잡한 논리 추론이 필요한 작업만 사고 모드로 보냅니다. 인지적 부하가 높은 작업에만 계산 자원을 집중 투입하는 효율적인 하이브리드 방식입니다.

모듈형 AI의 새로운 ROI

이런 모듈형 전환의 결과는 수치로 증명됩니다. 핀터레스트는 프런티어 모델을 썼을 때보다 AI 운영 비용을 90% 절감하는 동시에, 정확도는 30% 높이는 성과를 거뒀습니다.

이는 인프라의 중심이 '모델'에서 '데이터'로 이동하고 있음을 보여줍니다. 이제 경쟁력은 누가 더 비싼 API 청구서를 감당하느냐, 혹은 누가 더 큰 GPU 클러스터를 가졌느냐가 아니라, 범용 추론 능력과 기업 고유 데이터를 얼마나 효율적으로 연결하느냐에서 결정됩니다.

그렇다면 우리 회사는 어떤 길을 택해야 할까요? 상황에 따라 전략을 나누면 다음과 같습니다.

- **빠른 가설 검증이 필요하거나 트래픽이 적은 초기 단계라면?** $\rightarrow$ 프런티어 API가 정답입니다. 속도가 곧 경쟁력이니까요.

- **고유한 도메인 데이터가 있고 수백만 명의 사용자를 감당해야 하는 확장 단계라면?** $\rightarrow$ 임베딩 레이어 설계에 투자하세요. 오픈소스라는 '두뇌'에 우리만의 '눈'을 달아주는 것이 확장성의 벽을 넘는 유일한 방법입니다.